Xiaomi-Robotics-0 – 小米开源的机器人VLA模型
小米科技隆重推出其首款开源的VLA(视觉-语言-动作)大模型——Xiaomi-Robotics-0。这款拥有47亿参数的创新模型,巧妙融合了MoT混合架构,其核心“大脑”由Qwen3-VL多模态模型担纲,负责精准解析视觉与语言指令;而“小脑”则借助Diffusion Transformer,生成细腻、高频的动作序列。Xiaomi-Robotics-0的诞生,标志着小米在具身智能领域迈出了坚实的一步。
Xiaomi-Robotics-0的独特之处在于其对实时性与流畅性的极致追求。通过引入创新的异步执行机制和Λ-shape注意力掩码,该模型有效克服了传统VLA模型因推理延迟而产生的动作卡顿问题,实现了在消费级显卡上运行的流畅控制。在LIBERO、CALVIN等一系列仿真基准测试中,Xiaomi-Robotics-0取得了超越现有最佳水平(SOTA)的成绩。更令人瞩目的是,它已成功应用于真实的机器人操作任务,如精巧的积木拆解和细致的毛巾折叠,展现了其强大的泛化能力和实际应用潜力。
Xiaomi-Robotics-0的核心能力探析
- 指令的深度洞察:模型能够深刻理解人类自然语言指令,即使指令含糊不清,也能结合视觉输入,精准识别空间关系和操作意图。
- 动作的丝滑生成:强大的动作生成能力,能够输出连贯、高频的动作指令序列,驱动机器人执行极其精确的物理操作。
- 延迟的无感消除:创新的异步执行机制,实现了推理与执行的并行,彻底消除了动作延迟和卡顿,确保机器人动作的连续性和丝滑感。
- 双臂的默契协作:模型支持双臂机器人协同工作,能够出色完成诸如拆解复杂的积木结构、折叠精细的毛巾等需要长期协作的复杂任务。
- 策略的即时调适:在面对抓取失败或环境突变等意外情况时,模型能够敏锐地自动调整动作策略,展现出极强的适应性和灵活性。
- 通用能力的坚守:在专注于动作控制的同时,模型依然保留了视觉问答、物体识别等基础的通用理解能力,有效避免了因模型训练侧重而导致的“灾难性遗忘”问题。
Xiaomi-Robotics-0的底层技术揭秘
- MoT混合架构的精妙设计:模型的核心由Qwen3-VL-4B多模态模型作为“决策中枢”,负责理解视觉与语言信息;而Diffusion Transformer则扮演着“执行官”的角色,专注于动作序列的生成。两者结合,总参数量达47亿,在兼顾广泛理解能力的同时,实现了对精细动作的精准控制。
- 两阶段训练的精益求精:首先,通过Action Proposal机制,让VLM模型学会将动作与视觉语言特征对齐,并混合使用视觉语言和机器人数据进行训练,以防止模型遗忘通用能力。随后,在冻结VLM模型参数的前提下,专项训练DiT模型,利用流匹配技术,从随机噪声中精确恢复出高质量的动作序列。
- 异步执行机制的巧妙运用:机器人一边执行当前动作块,一边并行推理下一个动作块。通过Clean Action Prefix将前一时刻的动作信息作为当前推理的输入条件,从机制上保证了动作轨迹的时序连续性,从而彻底消除了推理延迟可能导致的动作断层现象。
- Λ-shape注意力掩码的革新:该模型摒弃了Diffusion Transformer中常见的因果注意力掩码,转而采用Λ-shape注意力掩码。这种设计允许紧邻的噪声token关注历史动作信息,实现动作的平滑过渡;同时,它严格限制后续token访问前缀信息,模型聚焦于当前视觉信号,有效避免了模型过度依赖惯性动作,显著提升了对环境突发变化的响应灵敏度。
Xiaomi-Robotics-0的探索入口
- 项目官方网站:https://xiaomi-robotics-0.github.io/
- GitHub代码仓库:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
- HuggingFace模型集锦:https://huggingface.co/collections/XiaomiRobotics/xiaomi-robotics-0
- 深度技术解析论文:https://xiaomi-robotics-0.github.io/assets/paper.pdf
Xiaomi-Robotics-0的广阔应用前景
- 工业领域的精细操作:模型能够精准地拆解由多达20块积木组成的复杂结构,这使其在电子产品、汽车零部件等精密度要求极高的装配场景中大有可为。
- 家庭服务的智能化升级:面对家庭服务场景,模型可以主动甩动毛巾以暴露被遮挡的区域,并能识别并妥善放置多余的物品,为家务助手和养老护理服务注入新的活力。
- 物流仓储的高效分拣:凭借其生成高频、平滑动作序列的能力,Xiaomi-Robotics-0能够轻松应对各种形状、材质的商品处理需求,显著提升物流仓储分拣的效率。
- 科研与教育的强大助力:该模型为高校和研究机构提供了宝贵的工具,可用于具身智能算法的深入研究、机器人控制策略的创新开发以及生动的教学演示。
- 商业展示的卓越体验:在展厅、商场、新品发布会等公共场合,部署Xiaomi-Robotics-0能够直观展示其低延迟、高流畅度的人机协作能力,有效提升品牌的技术形象和科技吸引力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


粤公网安备 44011502001135号