清华叉院、理想提出DriveVLM，视觉大语言模型提升自动驾驶能力

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：清华叉院、理想提出DriveVLM，视觉大语言模型提升自动驾驶能力
关键字：场景,模型,数据,关键,作者
文章来源：机器之心
内容字数：7509字

内容摘要：

机器之心报道
编辑：泽南在自动驾驶领域，研究人员也在朝着 GPT/Sora 等大模型方向进行探索。
与生成式 AI 相比，自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统，人们面临的主要挑战是 AI 的场景理解，这会涉及到复杂、不可预测的场景，例如恶劣天气、复杂的道路布局和不可预见的人类行为。
现有的自动驾驶系统通常包括 3D 感知、预测和规划组成部分。具体来说，3D 感知仅限于检测和跟踪熟悉的物体，忽略了罕见物体及其属性，预测和规划则关注物体的轨迹动作，通常会忽略物体和车辆之间的决策级交互。
自动驾驶需要从数据驱动迭代到知识驱动，通过训练具备逻辑推理能力的大模型才能真正解决长尾问题，只有这样才能迈向开放世界的 L4 级能力。随着 GPT4、Sora 等大模型通过涌现、规模效应展现出强大 few-shot/zero-shot 能力，人们正在思考一条新路。
最近清华大学交叉信息研究院、理想汽车提交的新论文中，作者提出了 DriveVLM，受到最近生成式 AI 领域兴起的视觉语言模型（VLM）启发，DriveVLM 在视觉理解和推理方面表现出了非凡的

原文链接：清华叉院、理想提出DriveVLM，视觉大语言模型提升自动驾驶能力