Xiaomi Auto World Model

Xiaomi Auto World Model – 小米推出的辅助驾驶世界模型

小米汽车在其先进的辅助驾驶技术领域，推出了一项名为“Xiaomi Auto World Model”的创新性世界模型。这项突破性的技术首次实现了三维重建（WorldRec）与视频生成（WorldGen）的深度融合，为自动驾驶的感知和仿真能力带来了质的飞跃。

Xiaomi Auto World Model 究竟是什么？

Xiaomi Auto World Model 是小米汽车自主研发的一款辅助驾驶世界模型，其核心亮点在于将三维场景重建与动态视频生成这两大关键技术进行了前所未有的深度耦合。在三维重建方面，WorldRec 模块能够利用稀疏的三维锚点，在短短 10 秒内完成对 10 秒视频内容的快速三维重建。而在视频生成领域，WorldGen 模块通过两阶段的训练策略和 ODE 蒸馏技术，将原本需要 50 步的去噪过程压缩至 4 步，实现了每秒 0.19 帧的高效生成，并能够支持最长达 1 分钟的视频内容生成。在业界公认的 Waymo 重建精度评测中，Xiaomi Auto World Model 取得了 PSNR 28.48 的优异成绩，而在 nuScenes 生成质量评测中，其 FVD 分数也达到了 64.97，均达到了当前行业的最先进水平（SOTA）。目前，该模型已成功应用于合成数据生成、仿真测试以及辅助驾驶教学等三大核心业务场景。

Xiaomi Auto World Model 的核心功能亮点

WorldRec 三维重建模块：该模块革新了传统稠密高斯表示方法，转而采用稀疏化的三维查询锚点。这一创新使得多视角、多时刻的特征聚合以及可见性加权的融合成为可能，从而实现了 10 秒视频在 10 秒内的快速重建。同时，它有效解决了多视角冲突和鬼影等难题。
WorldGen 视频生成模块：该模块采用了全双向时序注意力预训练与因果注意力微调的两阶段训练流程。通过 ODE 蒸馏技术，将去噪步数从 50 步大幅缩减至 4 步，实现了 0.19 秒/帧的生成速度。它能够生成未来帧、未观测视角以及被遮挡区域的内容，并支持生成最长达 81 帧（约 1 分钟）的连续视频。
重建与生成的高度耦合：在重建端，模型提供了三维几何先验信息，为视频生成过程提供了稳定性约束。而在生成端，模型则能够将重建的边界扩展至未被观测到的时空区域，两者相互校正，有效抑制了长时序漂移的问题。
极端场景的生成能力：该模型能够高质量地合成包括暴雨、大雪、浓雾等极端天气条件，以及动物闯入等罕见危险场景。这为训练感知模型提供了宝贵的稀缺数据。
三大业务场景的实际应用：模型已成功落地并交付了超过 10 万个视频片段用于合成数据生成；在闭环仿真测试中，能够复现真实事故并进行定向优化；在辅助驾驶学堂中，则用于动态生成第一人称驾驶教学视频。

Xiaomi Auto World Model 的技术原理剖析

WorldRec 的稀疏锚点表征：该技术摒弃了逐像素预测高斯表示的传统范式，转而使用稀疏的三维查询点来刻画场景。每一个锚点都能主动聚合来自多个相机和多个时刻的特征信息，并通过可见性加权自动筛选出可靠的观测数据，从根本上保证了跨视角的视觉一致性。
4D 高斯全局表示：模型维护了一个会随着观测数据增量而不断扩展的四维高斯场景表示。当将场景投影到自车视角后，它将作为渲染的先验输入，为生成模型提供确定性的几何约束。
WorldGen 的两阶段训练：第一阶段利用全双向时序注意力进行预训练，旨在建立对驾驶场景时空全局的深刻理解。第二阶段则通过因果注意力微调和教师（Teacher Forcing）技术，并结合 ODE 蒸馏将提速 12 倍。此外，还运用了分布匹配蒸馏来解决暴露偏差问题。
重建与生成形成的闭环约束：重建模块提供的确定性几何先验能够持续地校正生成过程，而生成模块则能补全重建无法覆盖的时空区域。两者在目标函数层面上相互约束，共同实现了高稳定性、高一致性和高真实性的视觉效果。

如何体验 Xiaomi Auto World Model？

上线平台：目前，该模型已集成到小米全车型搭载的“辅助驾驶学堂 – 实景模拟场景”功能中。
使用条件：用户需要拥有小米汽车（例如 SU7 等车型），并通过车载系统进入辅助驾驶学堂模块即可体验。

Xiaomi Auto World Model 的核心竞争力

卓越的性能表现：在 Waymo 数据集上，重建模块取得了 PSNR 28.48 的成绩，相较于 DGGT 模型提升了约 1 个百分点。在 nuScenes 数据集上，零样本泛化能力也达到了 PSNR 26.54，同样处于领先地位。在生成质量方面，FVD 分数 64.97 优于所有已知的双向和自回归基线模型。
极速的推理速度：单视角视频生成速度可达 0.19 秒/帧，三视角为 0.46 秒/帧。与同类自回归方法 Epona（1.06 秒/帧）相比，速度快了 5.6 倍。
超长的时序生成能力：该模型能够连续生成 81 帧视频（以 10Hz 或 30Hz 运行，最长可达 1 分钟），远超目前公开基线模型 8-16 帧的限制。
强大的零样本泛化能力：即使在 nuScenes 数据集的零样本测试中，模型仍能保持领先地位，证明了其对新场景的强大适应性。
已实现商业落地：模型已成功应用于小米汽车的合成数据生成、仿真测试以及智能座舱等三大核心业务场景，完成了完整的业务闭环。

Xiaomi Auto World Model 的项目相关信息

项目官网：https://JointWM.github.io/
arXiv 技术论文：https://arxiv.org/pdf/2605.18137

Xiaomi Auto World Model 与同类竞品对比

对比维度	Xiaomi Auto World Model	Waymo World Model
所属公司	小米汽车	Waymo（Alphabet/Google）
发布时间	2026年5月	2026年2月
技术路线	重建与生成深度耦合一体化架构（WorldRec + WorldGen 相互约束）	基于 Genie 3 的生成式世界模型（纯生成路线，后续训练以适配驾驶场景）
重建模块	WorldRec：采用稀疏 3D 锚点进行场景表征，10 秒视频仅需 10 秒即可完成重建，在 Waymo 数据集上取得 PSNR 28.48。	不设重建模块，依赖 Genie 3 的预训练世界知识来生成全场景。
生成模块	WorldGen：采用 4 步去噪处理，每秒生成 0.19 帧，支持 81 帧（约 1 分钟）的连续视频生成。	基于 Genie 3 进行生成，支持多传感器输出（包括相机和 LiDAR），能够模拟极端场景。
架构特点	重建模块为生成模块提供“地基”（几何约束），生成模块则为重建模块“拓展边界”（补全未观测区域）。	纯生成式架构，通过语言、动作和场景布局三种控制机制来调整模拟效果。
传感器支持	主要面向相机数据（输入为多视角图像）。	支持相机与 LiDAR 多传感器输出，可将普通行车记录仪视频转换为多传感器模拟数据。
基准测试	Waymo 数据集 PSNR 28.48（较 DGGT 提升约 1 个百分点）；nuScenes 数据集 FVD 64.97，FID 7.04。	未公开具体量化指标，但强调其能够模拟“从未见过”的长尾场景。
生成速度	单视角生成速度为 0.19 秒/帧，三视角为 0.46 秒/帧。	未公开具体推理速度，但强调“可扩展推理”和高效的变体模型。
最大生成时长	81 帧（以 10Hz/30Hz 运行，最长约 1 分钟）。	未明确公开，但 Genie 3 原生支持数分钟级别的连续生成。
极端场景能力	能够生成暴雨、大雪、浓雾以及动物闯入等长尾场景。	能够模拟龙卷风、洪水、积雪覆盖的金门大桥，以及大象/狮子等罕见物体，还有鲁莽驾驶行为等。
业务落地	已成功落地三大场景：合成数据（已交付 10 万+ clips）、仿真测试、辅助驾驶学堂。	用于 Waymo Driver 的训练与验证，支持 Robotaxi 的扩张（目标 2026 年实现每周 100 万订单）。