Qwen-Robot Suite

Qwen-Robot Suite – 阿里通义推出的物理世界基础模型套件

阿里通义最新推出的 Qwen-Robot Suite，犹如一把开启物理世界智能大门的钥匙，它是一个集成了三大核心基础模型——Qwen-RobotNav（导航）、Qwen-RobotManip（操作）与 Qwen-RobotWorld（世界模型）的强大套件。该套件以其创新的语言优先接口，巧妙地架起了视觉与语言表征空间与物理动作之间的桥梁，实现了跨越不同机器人本体和场景的统一训练与推理。这使得通用大模型得以扮演上层规划者的角色，能够灵活调用底层的物理工具，从而高效地完成复杂的长程任务闭环。

Qwen-Robot Suite的亮点功能

全能型物理导航：Qwen-RobotNav 凭借单一模型，覆盖了从指令跟随、点/目标导航，到目标追踪、自动驾驶乃至具身问答的五大关键导航领域，实现了高效统一的执行。
跨越本体的操作控制：Qwen-RobotManip 展现出惊人的兼容性，能够适配单臂、双臂、灵巧手以及移动平台等高达 15 种不同的机器人本体，直接将视觉语言指令转化为精准的物理动作。
预测未来世界动态：Qwen-RobotWorld 能够理解自然语言描述的动作，并精准预测在操作、驾驶或导航场景下，符合物理规律的未来状态，为智能体的决策提供有力支撑。
智能体工具的灵活组合：套件中的三大模型均采用了语言优先接口，通用 Qwen 模型可以将其视为强大的物理世界工具，实现动态调用与智能组合，构建出更复杂的任务流程。
零样本真实部署能力：该套件已成功在 Unitree Go2 等真实机器人上实现零样本部署，这意味着无需针对特定场景进行微调，即可快速投入实际应用。

Qwen-Robot Suite的技术精髓

Qwen-RobotNav：参数化视觉分配与可控观测协议，该模型将视觉分配策略本身参数化，通过任务模式的选择来驱动导航行为（指令跟随、目标搜索、追踪、自动驾驶）。其暴露的四轴推理时参数——视觉 token 预算、时间衰减、逐相机权重、帧采样模式——提供了可调的接口。模型在海量的 1,560 万条样本上联合视觉语言数据进行训练，使得同一套权重无需改动架构即可适应不同的导航需求。上层规划器通过动态切换任务模式与上下文策略，可反复调用该模型作为可重配置的导航原语，并借助双层记忆机制实现长程推理。
Qwen-RobotManip：统一跨本体对齐与规模化训练，以 Qwen3.5-4B VL 为核心，并结合流匹配 DiT 动作头，通过三种机制有效解决了异构本体的冲突。统一的 80 维状态-动作表示在多样化的本体之间共享；在相机坐标系下的末端执行器增量位姿，使得视觉上相似的在数值上也相近，从而屏蔽了形态差异；最后，上下文策略能够自适应地将执行历史视为隐式本体标识，从而在推理时实现实时的行为校准。在数据层面，该模型融合了 11,320 小时的开源机器人数据、1,933 小时的人类视频，以及通过人-机迁移合成管线生成的 24,808 小时跨本体数据，总计超过 38,100 小时的语料用于训练。
Qwen-RobotWorld：语言驱动的双流世界模型，其核心设计是将所有动作统一为自然语言接口，并将末端执行器位姿、转向指令以及导航路标点标准化为单一的训练信号。这使得 20 余种本体和 500 余个动作类别能够协同训练。模型采用了 60 层双流 MMDiT 架构，将 Qwen2.5-VL 的语义表示与视频隐变量深度耦合。与轻量级文本编码器不同，该模型以完整的、多模态的大语言模型作为动作编码器，内化了刚体、流体、重力等物理知识，并通过隐式约束生成物理上可信的未来。

关注微信公众号并回复“开源”，即可加入AI开源项目交流群。

如何高效使用 Qwen-Robot Suite

按需选择模块：根据具体的任务需求，从 RobotNav（移动）、RobotManip（操作）或 RobotWorld（预测）中选择最合适的模型作为底层物理引擎。
灵活配置接口：通过四轴可控观测协议，精细调节视觉历史编码参数，以完美适配单相机或多相机的不同输入配置。
无缝接入规划器：上层通用的智能体（例如 Qwen-3.5）可以将长程目标分解为一系列子任务，并通过自然语言指令动态调用相应的底层模型。
实现执行闭环：底层模型接收语言指令后，能够输出精确的物理动作或预测的未来帧，从而驱动真实机器人或仿真环境执行任务。
智能记忆管理：利用跨片段记忆与证据笔记本技术，有效压缩上下文信息，支持多步导航、环境取证以及失败后的智能恢复。

Qwen-Robot Suite的卓越优势

语言优先的统一接口：三大模型均提供直观的自然语言动作接口，通用 LLM 可以无缝地将其作为工具进行调用，无需为不同的机器人形态单独设计复杂协议。
强大的跨本体泛化能力：得益于统一的 80 维表示与相机坐标系动作对齐，该模型在零样本条件下即可实现跨 15 个平台的迁移，其在真实环境中的性能较先前最优水平提升了 2 倍。
全开源数据训练：RobotManip 模型仅依赖开源数据完成了超过 3.8 万小时的训练，并通过人-机迁移合成管线大幅降低了数据获取的门槛，有力证明了对齐是规模化的关键前提。
物理一致性的生成能力：世界模型采用完整的 VLM 作为动作编码器，深度内化了牛顿定律、质量守恒以及流体动力学等物理原理，在 WorldModelBench 等物理推理基准测试中位列开源模型第一。

Qwen-Robot Suite的项目地址

模型权重、技术博客和项目页面目前可能尚未完全公开。

Qwen-Robot Suite与同类竞品对比

对比维度	Qwen-Robot Suite	π0.5 (Physical Intelligence)
数据策略	全开源数据训练（>38K 小时），含人-机迁移合成管线	依赖大规模真实机器人遥操作数据收集
本体兼容	统一 80 维表示，跨 15 个平台 / 20 余种本体	主要面向特定本体优化，跨形态泛化有限
动作接口	语言优先，自然语言统一操作、导航、驾驶三类任务	以动作 token 为主，语言作为辅助条件
泛化能力	零样本跨本体迁移，开放环境真实部署	强分布内性能，OOD 泛化与跨本体迁移相对受限
系统架构	三模型套件 + 智能体框架分层组合，支持长程规划	单一 VLA 模型端到端执行，长程任务依赖外部规划