Xiaomi OneVL

Xiaomi OneVL – 小米具身智能团队开源的自动驾驶大模型

小米具身智能团队近期震撼发布了其重磅开源项目——Xiaomi OneVL，这是一款颠覆性的自动驾驶大模型。该模型在业界率先实现了将视觉-语言-动作（VLA）、世界模型以及潜空间推理这三大前沿技术路线融于一体的单一框架，为自动驾驶的智能化进程注入了新的活力。

Xiaomi OneVL：智能驾驶的革新者

Xiaomi OneVL 并非仅仅是一个简单的自动驾驶模型，它代表了小米在具身智能领域的一次重大突破。通过将复杂的感知、推理和决策过程整合到统一的平台，Xiaomi OneVL 能够更高效、更智能地应对复杂的驾驶场景。该模型巧妙地利用双辅助解码器来监督紧凑的潜变量，从而实现了“思考速度与不思考一样快，效果比思考更好”的惊人成就。实测数据显示，在车端推理延迟方面，Xiaomi OneVL 仅需 0.24 秒，这一速度在业界堪称翘楚。在 NAVSIM 等四项关键基准测试中，其表现均达到了行业领先水平（SOTA）。更值得一提的是，Xiaomi OneVL 的模型权重与代码已全面开源，并采用 Apache 2.0 协议，极大地促进了自动驾驶技术的普及和发展。

Xiaomi OneVL 的核心能力解析

视觉-语言-动作（VLA）的无缝整合：Xiaomi OneVL 实现了场景理解、语言推理与驾驶动作输出的深度融合，构建了一个从感知到决策再到执行的一站式端到端闭环系统。
世界模型驱动的未来预测：模型内置了强大的视觉世界模型解码器，能够精准预测未来 0.5 秒和 1.0 秒的场景画面。这使得模型能够内化道路几何、车辆以及环境变化等因果动力学规律，从而做出更具前瞻性的决策。
潜空间思维链（Latent CoT）的高效推理：Xiaomi OneVL 在紧凑的潜变量空间内完成了复杂的深度推理。在推理阶段，模型会舍弃辅助解码器，所有潜变量 token 通过单次并行预填即可完成，推理延迟仅为 0.24 秒，其速度与“直接预测”相当，但精度却显著提升。
双辅助解码器带来的精准训练：在训练过程中，模型引入了语言解码器和视觉解码器。语言解码器负责重建文本思维链，确保潜变量能够编码语义推理能力；视觉世界模型解码器则负责预测未来帧，模型内化物理世界的因果规律。这种双维度的监督机制确保了潜变量的全面性和有效性。
卓越的轨迹预测能力：基于 Qwen3-VL-4B-Instruct 的强大主干网络，Xiaomi OneVL 在顶部附加了 MLP 头来输出轨迹。在 NAVSIM 基准测试中，其 PDM-score 达到了 88.84，这一成绩甚至超越了部分 8B 参数的竞品模型。

Xiaomi OneVL 的技术基石

三大技术路线的性统一：Xiaomi OneVL 的核心创新在于首次将 VLA、世界模型与潜空间推理这三条原本的技术路线整合至同一框架。这使得模型在理解当下场景的同时，还能基于物理世界的因果关系预测未来环境的演变，并最终输出驾驶动作，实现了从感知到推理再到决策的端到端闭环。
双辅助解码器监督架构的精妙设计：在模型训练阶段，Xiaomi OneVL 引入了两个至关重要的辅助解码器。语言解码器能够重建文本思维链，确保潜变量具备强大的语义推理能力；视觉世界模型解码器则负责预测未来场景帧，迫使潜变量深刻理解道路几何、车辆等物理动力学规律。在实际推理时，这两个辅助解码器会被移除，仅保留经过优化的紧凑潜变量进行预测。
三阶段渐进式训练的严谨流程：模型的训练过程分为轨迹对齐、语言推理对齐以及视觉世界模型对齐三个阶段。这种循序渐进的训练方式能够逐步将潜变量与轨迹输出、语言推理目标以及视觉预测目标进行精确对齐。实验表明，跳过任何一个阶段都会导致模型性能出现灾难性的下降，凸显了三阶段联合优化的关键作用。
一步式潜空间并行推理的高效实现：在推理阶段，Xiaomi OneVL 实现了所有潜变量 token 的单次并行预填，无需进行自回归的逐 token 生成。这使得车端推理延迟大幅缩短至 0.24 秒（相当于 4.16Hz 的处理频率），其速度与“直接输出答案”的模式相当，但精度却远超显式思维链方法。这标志着 Xiaomi OneVL 成为首个在性能上超越显式 CoT 的潜空间推理方案。
轻量化模型底座的卓越性能：Xiaomi OneVL 选用了 Qwen3-VL-4B-Instruct 作为其主干网络，并在其上附加了一个紧凑的 MLP 头用于轨迹预测。其视觉分词器采用了 Emu3.5-VisionTokenizer，码本大小为 131072。尽管参数量仅为 4B，但在 NAVSIM 基准测试中，其 PDM-score 达到了 88.84，成功超越了 AdaThinkDrive 和 LaST-VLA 这两款 8B 参数的竞品模型，展现了其在轻量化与高性能之间的出色平衡。

Xiaomi OneVL 的核心竞争力

速度与精度的完美融合：Xiaomi OneVL 是业界首个在精度上超越显式思维链方法的潜空间推理技术。其车端推理延迟仅为 0.24 秒，与直接预测速度相当，但效果却更加优越，比显式自回归 CoT 方法快了高达 32%。
三大技术路线的创新整合：Xiaomi OneVL 首次实现了 VLA、世界模型与潜空间推理三大技术路线的融合，赋予了模型同时理解当前场景、推演物理因果以及预测未来环境的能力。
双维度可解释的决策机制：Xiaomi OneVL 能够提供语言解释和视觉预测两种决策依据，不仅能用文字清晰地阐述驾驶逻辑，还能通过生成画面直观地展示未来场景，有效解决了自动驾驶领域长期存在的“黑盒”不可解释性问题。
轻量化与高性能的兼得：基于 4B 参数的 Qwen3-VL-4B-Instruct 主干网络，Xiaomi OneVL 在 NAVSIM 基准上取得了 88.84 的 PDM-score，超越了 8B 参数的竞品，用更小的模型规模实现了更出色的性能表现。
全面开源，商用无忧：Xiaomi OneVL 的模型权重、训练和推理代码均已按照 Apache 2.0 协议全面开源，为学术界和产业界提供了二次开发和商业应用的广阔空间。
四项基准全面 SOTA：在 NAVSIM、ROADWork、Impromptu 和 Alpamayo-R1 这四项权威基准测试中，Xiaomi OneVL 均取得了当前最优的成绩。特别是在 Alpamayo-R1 测试中，其 ADE 值位列所有方法之首。

Xiaomi OneVL 的项目入口

项目官网：https://xiaomi-embodied-intelligence.github.io/OneVL/
GitHub 仓库：https://github.com/xiaomi-research/onevl
arXiv 技术论文：https://arxiv.org/pdf/2604.18486

Xiaomi OneVL 与竞品对比分析

在自动驾驶大模型领域，Xiaomi OneVL 的出现无疑为行业树立了新的标杆。与 Waymo 的 EMMA 模型相比，Xiaomi OneVL 在多个关键维度上展现出独特的优势。

对比维度	Xiaomi OneVL	EMMA (Waymo)
所属机构	小米具身智能	Waymo（Google）
模型定位	端到端 VLA + 世界模型统一框架	端到端多模态通用ist 自动驾驶模型
基础模型	Qwen3-VL-4B-Instruct（4B）	Gemini / PaLI-X（大规模，未公开具体参数）
核心架构	潜空间推理 + 双辅助解码器（语言 + 视觉世界模型）	纯文本 VQA 范式，所有输入输出表示为自然语言文本
推理方式	单次并行预填，0.24 秒延迟（4.16Hz）	自回归 CoT 逐 token 生成，延迟高，计算昂贵
世界模型	内置视觉解码器，可预测未来 0.5s/1.0s 帧	无显式世界模型，不具备未来场景生成能力
动作输出	连续轨迹预测（MLP 头直接输出）	文本形式的 BEV 坐标（waypoints），需文本到浮点转换
可解释性	语言 + 视觉双维度（文本解释 + 未来画面预测）	文本 CoT 推理链（rationale）+ 视觉定位（3D/BEV 位置标注）
多任务能力	专注规划，四项基准 SOTA	通用ist 模型，联合训练规划、3D 检测、路图估计、场景理解
训练方式	三阶段渐进式对齐（轨迹→语言→视觉）	端到端微调，多任务 co-training，利用 Gemini 预训练世界知识
传感器输入	视觉（相机）	视觉（相机），不支持 LiDAR / radar

Xiaomi OneVL 的应用前景展望

高阶智驾的量产落地：Xiaomi OneVL 的低延迟推理能力有效解决了传统 CoT 方法因延迟过高而难以在量产车型上部署的瓶颈，为实现更高级别的自动驾驶提供了可能。
复杂路况下的精准决策：该模型能够有效预判行人意图、车辆并道等动态场景，规避传统自动驾驶系统可能出现的“黑盒”风险，提升了决策的安全性与可靠性。
模型决策的可视化与可审计性：Xiaomi OneVL 为自动驾驶系统提供了直观可解释的语言与视觉决策依据，便于用户理解和审计，增强了系统的透明度。
赋能学术研究与产业创新：完全开源的代码和模型权重，为学术界和产业界提供了极大的便利，鼓励了基于 Apache 2.0 协议的商业应用和二次开发，加速了自动驾驶技术的迭代与进步。

阅读原文