用多模态LLM做自动驾驶决策器，可解释性有了！比纯端到端更擅长处理特殊场景，来自商汤

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：用多模态LLM做自动驾驶决策器，可解释性有了！比纯端到端更擅长处理特殊场景，来自商汤
关键字：模型,商汤,系统,车辆,解释性
文章来源：量子位
内容字数：7248字

内容摘要：

丰色曹原发自凹非寺量子位 | 公众号 QbitAI用多模态大模型做自动驾驶的决策器，效果居然这么好？
来自商汤的最新自动驾驶大模型DriveMLM，直接在闭环测试最权威榜单CARLA上取得了SOTA成绩——
跑分比基线Apollo还要高4.7，令一众传统模块化和端到端方法全都黯然失色。
对于该模型，我们只需将图像、激光雷达信息、交通规则甚至是乘客需求“一股脑”丢给它，它就能给出驾驶方案——直接能够控制车辆的那种，并告诉你为什么要这么开。
这不仅让驾驶逻辑可控、过程具备可解释性，且更擅长解决特殊和复杂情况。
像什么给紧急车辆让行？小case：
你说你着急能不能超车？它也能灵活处理（a为超车成功，b为车道不空，拒绝超车）：
简直不要太惊艳～
具体怎么实现，我们扒开论文来看。
多模态LLM自动驾驶难题目前，自动驾驶系统主要有两种方案，模块化和端到端。
模块化方案顾名思义，把自动驾驶任务拆解为感知、定位和规控三个模块，各模块各自完成任务，最后输出车辆控制信号。
而端到端则是一个整体的模型，包含了上述感知、定位等等所有模块的功能，最后同样输出车辆控制信号。
但这两种方案，各有各的缺点

原文链接：用多模态LLM做自动驾驶决策器，可解释性有了！比纯端到端更擅长处理特殊场景，来自商汤