AIGC动态欢迎阅读
原标题:清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
关键字:场景,模型,数据,关键,作者
文章来源:机器之心
内容字数:7509字
内容摘要:
机器之心报道
编辑:泽南在自动驾驶领域,研究人员也在朝着 GPT/Sora 等大模型方向进行探索。
与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。
现有的自动驾驶系统通常包括 3D 感知、运动预测和规划组成部分。具体来说,3D 感知仅限于检测和跟踪熟悉的物体,忽略了罕见物体及其属性, 运动预测和规划则关注物体的轨迹动作,通常会忽略物体和车辆之间的决策级交互。
自动驾驶需要从数据驱动迭代到知识驱动,通过训练具备逻辑推理能力的大模型才能真正解决长尾问题,只有这样才能迈向开放世界的 L4 级能力。随着 GPT4、Sora 等大模型通过涌现、规模效应展现出强大 few-shot/zero-shot 能力,人们正在思考一条新路。
最近清华大学交叉信息研究院、理想汽车提交的新论文中,作者提出了 DriveVLM,受到最近生成式 AI 领域兴起的视觉语言模型(VLM)启发,DriveVLM 在视觉理解和推理方面表现出了非凡的
原文链接:清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...