Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型
Wall-OSS-0.5,这款由自变量机器人倾力打造的国产具身智能典范,是当今视觉-语言-动作(VLA)大模型领域的璀璨新星。其最引人注目的特性,莫过于那“零样本”的卓越能力——无需针对特定任务进行繁琐的微调,便能直接在真实的机器人硬件上大显身手。模型巧妙地运用了创新的Gradient-Bridge协同训练方法,将精妙的动作控制能力无缝融入到基础模型的骨干之中。
Wall-OSS-0.5的独特之处
Wall-OSS-0.5并非寻常的具身智能模型,它是自变量机器人开源的国产力作,属于视觉-语言-动作(VLA)大模型家族。它最令人称道的便是其“零样本”的强大功力,这意味着模型无需经过任何任务微调,即可直接部署到物理机器人上执行任务。通过其独创的Gradient-Bridge协同训练技术,模型将动作执行能力巧妙地注入到其核心骨架之中,赋予了机器人直接完成搬运、分拣等17项真实世界任务的能力,其中更有4项任务的完成率傲然挺立于80%以上。
Wall-OSS-0.5的核心亮点
- 即插即用的真实机器人操控:其预训练的模型检查点,如同一般,可直接解锁物理硬件的潜能。无论是抓取、排序还是整理,它都能信手拈来,真正实现了“预训练即部署”的性突破。
- 形态万千,统一适配:一个预训练模型,便能游刃有余地驾驭桌面双臂、移动操作等20余种截然不同的机器人形态,彻底打破了传统模型需要为每种硬件单独训练的僵局。
- 三位一体的协同训练:通过离散动作预测、多模态预测与连续流匹配这三者的互补与优化,形成了独步天下的“梯度桥接”机制。这使得动作学习与视觉语言理解非但互不干扰,反而能协同促进,共同攀登高峰。
- 混合专家架构(MoT)的智慧结晶:视觉与语言的令牌信息由VL Expert精心路由,而连续动作的计算则交给Action Expert全权负责。两者通过联合注意力机制实现端到端的梯度流动,在语言理解与动作生成之间取得了精妙的平衡。
- 视觉语言能力的坚守与升华:在强化动作能力的同时,模型并未牺牲其宝贵的视觉语言基础能力。实体接地能力更是提升了惊人的21.8个百分点,而通用的视觉语言理解与推理能力则得以完整保留。
- 高效微调,精准适配:在LeRobot数据集上进行微调后,模型在15项真实机器人任务上的平均进度达到了60.5%,这一成绩比同类模型π0.5高出17.5个百分点,尽显其卓越的学习效率。
- 泛化能力与长程执行的飞跃:即使面对3项从未接触过的任务(如变形物体操作),模型依然能保持高水准的表现。它还能胜任多阶段的连续操作,如绳索收紧、抹布折叠、果篮整理等复杂长程任务。
Wall-OSS-0.5的技术精髓
- 40亿参数的VLA架构,智力引擎全开:模型以30亿参数的Qwen2.5-VL视觉语言模型为基石,辅以动作生成组件,总参数量高达40亿。这使得它能够实现视觉感知、语言理解与机器人动作生成的端到端统一,宛如一个高度集成的智能体。
- MoT混合专家路由,各司其职,协同作战:采用先进的Mixture-of-Experts架构,视觉-语言令牌经由VL Expert精准路由,而连续动作的计算则由的Action Expert处理。两者通过联合注意力机制实现端到端的梯度流动,确保动作训练不会对语言理解造成丝毫干扰。
- 梯度桥接协同训练,化繁为简,融会贯通:模型独创性地将离散动作预测、多模态预测以及连续流匹配(Flow Matching)这三者作为互补的优化目标进行协同训练,构建起“梯度桥接”的强大机制。这使得动作策略的学习与视觉语言的预训练知识能够相互强化,而非相互冲突。
- 连续流匹配动作生成,精准细腻,丝滑流畅:利用Flow Matching技术对连续动作空间进行建模,相较于传统的离散化或回归方法,它能生成更为精准、平滑且高维的机器人控制信号。
- 预训练即部署的理念,化繁为简,一步到位:通过大规模异构数据的预训练,模型在训练阶段便已习得通用的物理操作先验。其检查点能够直接在真实的机器人硬件上执行零样本推理,无需针对特定任务进行微调后处理。
- 海量异构训练数据,广纳百川,博采众长:训练数据覆盖20余种机器人形态,每轮训练包含超过100万条真实机器人轨迹。同时,融合了9000万条多模态语料(包含1200万实体桥接样本),实现了约60%自采数据与40%开源数据的任务平衡采样。
- 联合注意力与端到端优化,深度耦合,无缝衔接:VL Expert与Action Expert共享注意力计算图,确保了语言指令、视觉场景与动作输出在特征层面深度耦合,梯度能够实现跨模态的双向传播。
- 能力解耦保持机制,固本培元,兼收并蓄:通过三目标协同与专家分离的设计,动作训练不会侵蚀基础VLM能力。实体接地能力提升了21.8个百分点,而通用的视觉-语言理解与推理能力则得以完整保留。
如何驾驭Wall-OSS-0.5
- 环境准备,筑牢基础:首先,搭建一个Python 3.10的conda环境,并安装PyTorch等核心依赖。请务必确保Flash Attention 2.7.4及以上版本的安装,以加速推理过程。
- 安装LeRobot库,搭建桥梁:克隆Hugging Face的LeRobot仓库,切换到指定的兼容版本后,执行
pip install -e .命令,即可完成安装。 - 部署Wall-X工具链,解锁潜力:克隆
wall-x开源仓库,运行git submodule update --init --recursive拉取子模块,随后执行安装命令,即可完成工具链的部署。 - 下载预训练权重,启动引擎:从Hugging Face(
x-square-robot/wall-oss-0.5)下载官方发布的预训练模型检查点。 - 配置机器人参数,量体裁衣:根据您目标机器人的具体类型(如桌面双臂、移动操作等),细致配置度(DOF)配置、模型路径、数据路径以及训练超参数。
- 执行微调(可选),精益求精:如果您希望针对特定任务进行优化,可在LeRobot格式的数据集上运行微调脚本(例如
bash ./workspace/lerobot_example/run.sh),以进一步提升任务表现。 - 部署到真实硬件,实践出真知:加载预训练或微调后的检查点,在真实的机器人硬件上执行零样本推理或微调后推理,模型将直接输出可执行的机器人控制策略。
Wall-OSS-0.5的制胜法宝
- 即刻可用,无需等待:与其他VLA模型不同,它无需经过微调即可直接产生可执行的机器人策略,真正做到“部署即用”。
- 高效适应,事半功倍:在15项真实机器人任务上微调后,平均进度高达60.5%,较π0.5的43.0%高出17.5个百分点,效率惊人。
- 强大泛化,无惧挑战:在3项未曾见过的任务(如变形物体操作)上依然表现出色,绳索收紧任务更是达到了82%的惊人完成率。
- 视觉语言能力保持,如虎添翼:动作训练不仅不会损害基础VLM能力,反而使实体接地能力提升21.8个百分点,通用VL能力也得到了完整保留。
- 数据规模领先,实力雄厚:覆盖20+种机器人形态,每轮训练数据量超过100万条轨迹,多模态样本高达9000万条,奠定了其强大的基础。
Wall-OSS-0.5的探秘之旅
- 项目地址:https://x2robot.com/oss#resources
- Github仓库:https://github.com/X-Square-Robot/wall-x
- 论文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf
Wall-OSS-0.5与同类竞品的深度对话
| 对比维度 | Wall-OSS-0.5 | π0.5 | OpenVLA |
|---|---|---|---|
| 开发机构 | 自变量机器人(X Square Robot) | Physical Intelligence(PI) | Stanford 等学术机构 |
| 参数规模 | 40亿(3B Qwen2.5-VL 骨干) | 未公开(基于 π0 架构扩展) | 70亿(LLaMA 2-7B 骨干) |
| 核心架构 | MoT 混合专家 + 梯度桥接协同训练 | Transformer 分层推理 + 动作专家 | Prismatic VLM(SigLIP + DINOv2 + LLaMA 2) |
| 动作生成方式 | 离散 token 与连续流匹配协同优化 | 高层离散 token 自回归 + 低层流匹配去噪 | 将动作视为语言模型词汇表中的离散 token 预测 |
| 训练数据规模 | 20+ 种机器人形态,每轮 100万+ 轨迹,9000万多模态样本 | 网络数据 + 跨机器人经验 + 口头指令多源协同 | Open X-Embodiment 数据集 97万条轨迹 |
| 零样本部署能力 | 预训练检查点直接部署,17项任务中4项进度超80% | 预训练后需后训练/微调,不直接支持零样本硬件部署 | 预训练模型需任务特定微调,不支持直接零样本部署 |
| 微调后性能 | 15项真实任务平均进度60.5%,领先 π0.5 达17.5个百分点 | 真实家庭环境任务成功率60%-88%,复杂指令遵循率高 | WidowX / Google Robot 多任务成功率领先 RT-2-X 16.5% |
| 开源程度 | 完全开源(权重、训练代码、配方、消融实验) | 研究发布,部分技术细节公开 | 完全开源(模型权重、代码、LoRA/量化微调方案) |
| 核心创新点 | 梯度桥接实现预训练即部署,动作与VL能力协同增强不互损 | 开放世界泛化与层次化推理(高层语义规划 + 低层动作执行) | 首个全面开源的通用VLA,验证VLM直接微调生成动作的可行性 |
| VLM能力保持 | 实体grounding提升21.8%,通用VL理解与推理能力完整保留 | 依赖网络数据维持语义理解,动作训练后需专门保持 | 基于预训练VLM微调,语言能力基线较高 |
Wall-OSS-0.5的广阔应用前景
- 家庭服务场景:从积木的精准排序,到水果的细致分类,再到抽屉的巧妙整理,乃至戒指的叠放,它都能胜任日常家务的繁重任务。
- 柔性物体处理的挑战:面对绳索的收紧、抹布的折叠、插花的艺术,它能灵活应对各种变形物体的操作。
- 工业装配的精细化:在精密零件的抓取、颜色的准确分类、工具的归位等重复性制造流程中,它展现出卓越的效率与精度。
- 双臂协作的默契配合:对于需要双手协同完成的复杂装配、精细整理以及长程组合动作,它能展现出非凡的协调能力。
- 长程任务的耐心执行:在果篮整理等多阶段连续操作的任务中,它能保持持久的注意力,完成需要耐心与毅力的复杂任务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


