Xiaomi OneVL – 小米具身智能团队开源的自动驾驶大模型
小米具身智能团队近期震撼发布了其重磅开源项目——Xiaomi OneVL,这是一款颠覆性的自动驾驶大模型。该模型在业界率先实现了将视觉-语言-动作(VLA)、世界模型以及潜空间推理这三大前沿技术路线融于一体的单一框架,为自动驾驶的智能化进程注入了新的活力。
Xiaomi OneVL:智能驾驶的革新者
Xiaomi OneVL 并非仅仅是一个简单的自动驾驶模型,它代表了小米在具身智能领域的一次重大突破。通过将复杂的感知、推理和决策过程整合到统一的平台,Xiaomi OneVL 能够更高效、更智能地应对复杂的驾驶场景。该模型巧妙地利用双辅助解码器来监督紧凑的潜变量,从而实现了“思考速度与不思考一样快,效果比思考更好”的惊人成就。实测数据显示,在车端推理延迟方面,Xiaomi OneVL 仅需 0.24 秒,这一速度在业界堪称翘楚。在 NAVSIM 等四项关键基准测试中,其表现均达到了行业领先水平(SOTA)。更值得一提的是,Xiaomi OneVL 的模型权重与代码已全面开源,并采用 Apache 2.0 协议,极大地促进了自动驾驶技术的普及和发展。
Xiaomi OneVL 的核心能力解析
- 视觉-语言-动作(VLA)的无缝整合:Xiaomi OneVL 实现了场景理解、语言推理与驾驶动作输出的深度融合,构建了一个从感知到决策再到执行的一站式端到端闭环系统。
- 世界模型驱动的未来预测:模型内置了强大的视觉世界模型解码器,能够精准预测未来 0.5 秒和 1.0 秒的场景画面。这使得模型能够内化道路几何、车辆以及环境变化等因果动力学规律,从而做出更具前瞻性的决策。
- 潜空间思维链(Latent CoT)的高效推理:Xiaomi OneVL 在紧凑的潜变量空间内完成了复杂的深度推理。在推理阶段,模型会舍弃辅助解码器,所有潜变量 token 通过单次并行预填即可完成,推理延迟仅为 0.24 秒,其速度与“直接预测”相当,但精度却显著提升。
- 双辅助解码器带来的精准训练:在训练过程中,模型引入了语言解码器和视觉解码器。语言解码器负责重建文本思维链,确保潜变量能够编码语义推理能力;视觉世界模型解码器则负责预测未来帧,模型内化物理世界的因果规律。这种双维度的监督机制确保了潜变量的全面性和有效性。
- 卓越的轨迹预测能力:基于 Qwen3-VL-4B-Instruct 的强大主干网络,Xiaomi OneVL 在顶部附加了 MLP 头来输出轨迹。在 NAVSIM 基准测试中,其 PDM-score 达到了 88.84,这一成绩甚至超越了部分 8B 参数的竞品模型。
Xiaomi OneVL 的技术基石
- 三大技术路线的性统一:Xiaomi OneVL 的核心创新在于首次将 VLA、世界模型与潜空间推理这三条原本的技术路线整合至同一框架。这使得模型在理解当下场景的同时,还能基于物理世界的因果关系预测未来环境的演变,并最终输出驾驶动作,实现了从感知到推理再到决策的端到端闭环。
- 双辅助解码器监督架构的精妙设计:在模型训练阶段,Xiaomi OneVL 引入了两个至关重要的辅助解码器。语言解码器能够重建文本思维链,确保潜变量具备强大的语义推理能力;视觉世界模型解码器则负责预测未来场景帧,迫使潜变量深刻理解道路几何、车辆等物理动力学规律。在实际推理时,这两个辅助解码器会被移除,仅保留经过优化的紧凑潜变量进行预测。
- 三阶段渐进式训练的严谨流程:模型的训练过程分为轨迹对齐、语言推理对齐以及视觉世界模型对齐三个阶段。这种循序渐进的训练方式能够逐步将潜变量与轨迹输出、语言推理目标以及视觉预测目标进行精确对齐。实验表明,跳过任何一个阶段都会导致模型性能出现灾难性的下降,凸显了三阶段联合优化的关键作用。
- 一步式潜空间并行推理的高效实现:在推理阶段,Xiaomi OneVL 实现了所有潜变量 token 的单次并行预填,无需进行自回归的逐 token 生成。这使得车端推理延迟大幅缩短至 0.24 秒(相当于 4.16Hz 的处理频率),其速度与“直接输出答案”的模式相当,但精度却远超显式思维链方法。这标志着 Xiaomi OneVL 成为首个在性能上超越显式 CoT 的潜空间推理方案。
- 轻量化模型底座的卓越性能:Xiaomi OneVL 选用了 Qwen3-VL-4B-Instruct 作为其主干网络,并在其上附加了一个紧凑的 MLP 头用于轨迹预测。其视觉分词器采用了 Emu3.5-VisionTokenizer,码本大小为 131072。尽管参数量仅为 4B,但在 NAVSIM 基准测试中,其 PDM-score 达到了 88.84,成功超越了 AdaThinkDrive 和 LaST-VLA 这两款 8B 参数的竞品模型,展现了其在轻量化与高性能之间的出色平衡。
Xiaomi OneVL 的核心竞争力
- 速度与精度的完美融合:Xiaomi OneVL 是业界首个在精度上超越显式思维链方法的潜空间推理技术。其车端推理延迟仅为 0.24 秒,与直接预测速度相当,但效果却更加优越,比显式自回归 CoT 方法快了高达 32%。
- 三大技术路线的创新整合:Xiaomi OneVL 首次实现了 VLA、世界模型与潜空间推理三大技术路线的融合,赋予了模型同时理解当前场景、推演物理因果以及预测未来环境的能力。
- 双维度可解释的决策机制:Xiaomi OneVL 能够提供语言解释和视觉预测两种决策依据,不仅能用文字清晰地阐述驾驶逻辑,还能通过生成画面直观地展示未来场景,有效解决了自动驾驶领域长期存在的“黑盒”不可解释性问题。
- 轻量化与高性能的兼得:基于 4B 参数的 Qwen3-VL-4B-Instruct 主干网络,Xiaomi OneVL 在 NAVSIM 基准上取得了 88.84 的 PDM-score,超越了 8B 参数的竞品,用更小的模型规模实现了更出色的性能表现。
- 全面开源,商用无忧:Xiaomi OneVL 的模型权重、训练和推理代码均已按照 Apache 2.0 协议全面开源,为学术界和产业界提供了二次开发和商业应用的广阔空间。
- 四项基准全面 SOTA:在 NAVSIM、ROADWork、Impromptu 和 Alpamayo-R1 这四项权威基准测试中,Xiaomi OneVL 均取得了当前最优的成绩。特别是在 Alpamayo-R1 测试中,其 ADE 值位列所有方法之首。
Xiaomi OneVL 的项目入口
- 项目官网:https://xiaomi-embodied-intelligence.github.io/OneVL/
- GitHub 仓库:https://github.com/xiaomi-research/onevl
- arXiv 技术论文:https://arxiv.org/pdf/2604.18486
Xiaomi OneVL 与竞品对比分析
在自动驾驶大模型领域,Xiaomi OneVL 的出现无疑为行业树立了新的标杆。与 Waymo 的 EMMA 模型相比,Xiaomi OneVL 在多个关键维度上展现出独特的优势。
| 对比维度 | Xiaomi OneVL | EMMA (Waymo) |
|---|---|---|
| 所属机构 | 小米具身智能 | Waymo(Google) |
| 模型定位 | 端到端 VLA + 世界模型统一框架 | 端到端多模态通用ist 自动驾驶模型 |
| 基础模型 | Qwen3-VL-4B-Instruct(4B) | Gemini / PaLI-X(大规模,未公开具体参数) |
| 核心架构 | 潜空间推理 + 双辅助解码器(语言 + 视觉世界模型) | 纯文本 VQA 范式,所有输入输出表示为自然语言文本 |
| 推理方式 | 单次并行预填,0.24 秒延迟(4.16Hz) | 自回归 CoT 逐 token 生成,延迟高,计算昂贵 |
| 世界模型 | 内置视觉解码器,可预测未来 0.5s/1.0s 帧 | 无显式世界模型,不具备未来场景生成能力 |
| 动作输出 | 连续轨迹预测(MLP 头直接输出) | 文本形式的 BEV 坐标(waypoints),需文本到浮点转换 |
| 可解释性 | 语言 + 视觉双维度(文本解释 + 未来画面预测) | 文本 CoT 推理链(rationale)+ 视觉定位(3D/BEV 位置标注) |
| 多任务能力 | 专注规划,四项基准 SOTA | 通用ist 模型,联合训练规划、3D 检测、路图估计、场景理解 |
| 训练方式 | 三阶段渐进式对齐(轨迹→语言→视觉) | 端到端微调,多任务 co-training,利用 Gemini 预训练世界知识 |
| 传感器输入 | 视觉(相机) | 视觉(相机),不支持 LiDAR / radar |
Xiaomi OneVL 的应用前景展望
- 高阶智驾的量产落地:Xiaomi OneVL 的低延迟推理能力有效解决了传统 CoT 方法因延迟过高而难以在量产车型上部署的瓶颈,为实现更高级别的自动驾驶提供了可能。
- 复杂路况下的精准决策:该模型能够有效预判行人意图、车辆并道等动态场景,规避传统自动驾驶系统可能出现的“黑盒”风险,提升了决策的安全性与可靠性。
- 模型决策的可视化与可审计性:Xiaomi OneVL 为自动驾驶系统提供了直观可解释的语言与视觉决策依据,便于用户理解和审计,增强了系统的透明度。
- 赋能学术研究与产业创新:完全开源的代码和模型权重,为学术界和产业界提供了极大的便利,鼓励了基于 Apache 2.0 协议的商业应用和二次开发,加速了自动驾驶技术的迭代与进步。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



粤公网安备 44011502001135号