Xiaomi-Robotics-0

Xiaomi-Robotics-0 – 小米开源的机器人VLA模型

小米科技隆重推出其首款开源的VLA（视觉-语言-动作）大模型——Xiaomi-Robotics-0。这款拥有47亿参数的创新模型，巧妙融合了MoT混合架构，其核心“大脑”由Qwen3-VL多模态模型担纲，负责精准解析视觉与语言指令；而“小脑”则借助Diffusion Transformer，生成细腻、高频的动作序列。Xiaomi-Robotics-0的诞生，标志着小米在具身智能领域迈出了坚实的一步。

Xiaomi-Robotics-0的独特之处在于其对实时性与流畅性的极致追求。通过引入创新的异步执行机制和Λ-shape注意力掩码，该模型有效克服了传统VLA模型因推理延迟而产生的动作卡顿问题，实现了在消费级显卡上运行的流畅控制。在LIBERO、CALVIN等一系列仿真基准测试中，Xiaomi-Robotics-0取得了超越现有最佳水平（SOTA）的成绩。更令人瞩目的是，它已成功应用于真实的机器人操作任务，如精巧的积木拆解和细致的毛巾折叠，展现了其强大的泛化能力和实际应用潜力。

Xiaomi-Robotics-0的核心能力探析

指令的深度洞察：模型能够深刻理解人类自然语言指令，即使指令含糊不清，也能结合视觉输入，精准识别空间关系和操作意图。
动作的丝滑生成：强大的动作生成能力，能够输出连贯、高频的动作指令序列，驱动机器人执行极其精确的物理操作。
延迟的无感消除：创新的异步执行机制，实现了推理与执行的并行，彻底消除了动作延迟和卡顿，确保机器人动作的连续性和丝滑感。
双臂的默契协作：模型支持双臂机器人协同工作，能够出色完成诸如拆解复杂的积木结构、折叠精细的毛巾等需要长期协作的复杂任务。
策略的即时调适：在面对抓取失败或环境突变等意外情况时，模型能够敏锐地自动调整动作策略，展现出极强的适应性和灵活性。
通用能力的坚守：在专注于动作控制的同时，模型依然保留了视觉问答、物体识别等基础的通用理解能力，有效避免了因模型训练侧重而导致的“灾难性遗忘”问题。

Xiaomi-Robotics-0的底层技术揭秘

MoT混合架构的精妙设计：模型的核心由Qwen3-VL-4B多模态模型作为“决策中枢”，负责理解视觉与语言信息；而Diffusion Transformer则扮演着“执行官”的角色，专注于动作序列的生成。两者结合，总参数量达47亿，在兼顾广泛理解能力的同时，实现了对精细动作的精准控制。
两阶段训练的精益求精：首先，通过Action Proposal机制，让VLM模型学会将动作与视觉语言特征对齐，并混合使用视觉语言和机器人数据进行训练，以防止模型遗忘通用能力。随后，在冻结VLM模型参数的前提下，专项训练DiT模型，利用流匹配技术，从随机噪声中精确恢复出高质量的动作序列。
异步执行机制的巧妙运用：机器人一边执行当前动作块，一边并行推理下一个动作块。通过Clean Action Prefix将前一时刻的动作信息作为当前推理的输入条件，从机制上保证了动作轨迹的时序连续性，从而彻底消除了推理延迟可能导致的动作断层现象。
Λ-shape注意力掩码的革新：该模型摒弃了Diffusion Transformer中常见的因果注意力掩码，转而采用Λ-shape注意力掩码。这种设计允许紧邻的噪声token关注历史动作信息，实现动作的平滑过渡；同时，它严格限制后续token访问前缀信息，模型聚焦于当前视觉信号，有效避免了模型过度依赖惯性动作，显著提升了对环境突发变化的响应灵敏度。

Xiaomi-Robotics-0的探索入口

项目官方网站：https://xiaomi-robotics-0.github.io/
GitHub代码仓库：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
HuggingFace模型集锦：https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
深度技术解析论文：https://xiaomi-robotics-0.github.io/assets/paper.pdf

Xiaomi-Robotics-0的广阔应用前景

工业领域的精细操作：模型能够精准地拆解由多达20块积木组成的复杂结构，这使其在电子产品、汽车零部件等精密度要求极高的装配场景中大有可为。
家庭服务的智能化升级：面对家庭服务场景，模型可以主动甩动毛巾以暴露被遮挡的区域，并能识别并妥善放置多余的物品，为家务助手和养老护理服务注入新的活力。
物流仓储的高效分拣：凭借其生成高频、平滑动作序列的能力，Xiaomi-Robotics-0能够轻松应对各种形状、材质的商品处理需求，显著提升物流仓储分拣的效率。
科研与教育的强大助力：该模型为高校和研究机构提供了宝贵的工具，可用于具身智能算法的深入研究、机器人控制策略的创新开发以及生动的教学演示。
商业展示的卓越体验：在展厅、商场、新品发布会等公共场合，部署Xiaomi-Robotics-0能够直观展示其低延迟、高流畅度的人机协作能力，有效提升品牌的技术形象和科技吸引力。

阅读原文