Wall-OSS-0.5

Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型

Wall-OSS-0.5，这款由自变量机器人倾力打造的国产具身智能典范，是当今视觉-语言-动作（VLA）大模型领域的璀璨新星。其最引人注目的特性，莫过于那“零样本”的卓越能力——无需针对特定任务进行繁琐的微调，便能直接在真实的机器人硬件上大显身手。模型巧妙地运用了创新的Gradient-Bridge协同训练方法，将精妙的动作控制能力无缝融入到基础模型的骨干之中。

Wall-OSS-0.5的独特之处

Wall-OSS-0.5并非寻常的具身智能模型，它是自变量机器人开源的国产力作，属于视觉-语言-动作（VLA）大模型家族。它最令人称道的便是其“零样本”的强大功力，这意味着模型无需经过任何任务微调，即可直接部署到物理机器人上执行任务。通过其独创的Gradient-Bridge协同训练技术，模型将动作执行能力巧妙地注入到其核心骨架之中，赋予了机器人直接完成搬运、分拣等17项真实世界任务的能力，其中更有4项任务的完成率傲然挺立于80%以上。

Wall-OSS-0.5的核心亮点

即插即用的真实机器人操控：其预训练的模型检查点，如同一般，可直接解锁物理硬件的潜能。无论是抓取、排序还是整理，它都能信手拈来，真正实现了“预训练即部署”的性突破。
形态万千，统一适配：一个预训练模型，便能游刃有余地驾驭桌面双臂、移动操作等20余种截然不同的机器人形态，彻底打破了传统模型需要为每种硬件单独训练的僵局。
三位一体的协同训练：通过离散动作预测、多模态预测与连续流匹配这三者的互补与优化，形成了独步天下的“梯度桥接”机制。这使得动作学习与视觉语言理解非但互不干扰，反而能协同促进，共同攀登高峰。
混合专家架构（MoT）的智慧结晶：视觉与语言的令牌信息由VL Expert精心路由，而连续动作的计算则交给Action Expert全权负责。两者通过联合注意力机制实现端到端的梯度流动，在语言理解与动作生成之间取得了精妙的平衡。
视觉语言能力的坚守与升华：在强化动作能力的同时，模型并未牺牲其宝贵的视觉语言基础能力。实体接地能力更是提升了惊人的21.8个百分点，而通用的视觉语言理解与推理能力则得以完整保留。
高效微调，精准适配：在LeRobot数据集上进行微调后，模型在15项真实机器人任务上的平均进度达到了60.5%，这一成绩比同类模型π0.5高出17.5个百分点，尽显其卓越的学习效率。
泛化能力与长程执行的飞跃：即使面对3项从未接触过的任务（如变形物体操作），模型依然能保持高水准的表现。它还能胜任多阶段的连续操作，如绳索收紧、抹布折叠、果篮整理等复杂长程任务。

Wall-OSS-0.5的技术精髓

40亿参数的VLA架构，智力引擎全开：模型以30亿参数的Qwen2.5-VL视觉语言模型为基石，辅以动作生成组件，总参数量高达40亿。这使得它能够实现视觉感知、语言理解与机器人动作生成的端到端统一，宛如一个高度集成的智能体。
MoT混合专家路由，各司其职，协同作战：采用先进的Mixture-of-Experts架构，视觉-语言令牌经由VL Expert精准路由，而连续动作的计算则由的Action Expert处理。两者通过联合注意力机制实现端到端的梯度流动，确保动作训练不会对语言理解造成丝毫干扰。
梯度桥接协同训练，化繁为简，融会贯通：模型独创性地将离散动作预测、多模态预测以及连续流匹配（Flow Matching）这三者作为互补的优化目标进行协同训练，构建起“梯度桥接”的强大机制。这使得动作策略的学习与视觉语言的预训练知识能够相互强化，而非相互冲突。
连续流匹配动作生成，精准细腻，丝滑流畅：利用Flow Matching技术对连续动作空间进行建模，相较于传统的离散化或回归方法，它能生成更为精准、平滑且高维的机器人控制信号。
预训练即部署的理念，化繁为简，一步到位：通过大规模异构数据的预训练，模型在训练阶段便已习得通用的物理操作先验。其检查点能够直接在真实的机器人硬件上执行零样本推理，无需针对特定任务进行微调后处理。
海量异构训练数据，广纳百川，博采众长：训练数据覆盖20余种机器人形态，每轮训练包含超过100万条真实机器人轨迹。同时，融合了9000万条多模态语料（包含1200万实体桥接样本），实现了约60%自采数据与40%开源数据的任务平衡采样。
联合注意力与端到端优化，深度耦合，无缝衔接：VL Expert与Action Expert共享注意力计算图，确保了语言指令、视觉场景与动作输出在特征层面深度耦合，梯度能够实现跨模态的双向传播。
能力解耦保持机制，固本培元，兼收并蓄：通过三目标协同与专家分离的设计，动作训练不会侵蚀基础VLM能力。实体接地能力提升了21.8个百分点，而通用的视觉-语言理解与推理能力则得以完整保留。

如何驾驭Wall-OSS-0.5

环境准备，筑牢基础：首先，搭建一个Python 3.10的conda环境，并安装PyTorch等核心依赖。请务必确保Flash Attention 2.7.4及以上版本的安装，以加速推理过程。
安装LeRobot库，搭建桥梁：克隆Hugging Face的LeRobot仓库，切换到指定的兼容版本后，执行pip install -e .命令，即可完成安装。
部署Wall-X工具链，解锁潜力：克隆wall-x开源仓库，运行git submodule update --init --recursive拉取子模块，随后执行安装命令，即可完成工具链的部署。
下载预训练权重，启动引擎：从Hugging Face（x-square-robot/wall-oss-0.5）下载官方发布的预训练模型检查点。
配置机器人参数，量体裁衣：根据您目标机器人的具体类型（如桌面双臂、移动操作等），细致配置度（DOF）配置、模型路径、数据路径以及训练超参数。
执行微调（可选），精益求精：如果您希望针对特定任务进行优化，可在LeRobot格式的数据集上运行微调脚本（例如bash ./workspace/lerobot_example/run.sh），以进一步提升任务表现。
部署到真实硬件，实践出真知：加载预训练或微调后的检查点，在真实的机器人硬件上执行零样本推理或微调后推理，模型将直接输出可执行的机器人控制策略。

Wall-OSS-0.5的制胜法宝

即刻可用，无需等待：与其他VLA模型不同，它无需经过微调即可直接产生可执行的机器人策略，真正做到“部署即用”。
高效适应，事半功倍：在15项真实机器人任务上微调后，平均进度高达60.5%，较π0.5的43.0%高出17.5个百分点，效率惊人。
强大泛化，无惧挑战：在3项未曾见过的任务（如变形物体操作）上依然表现出色，绳索收紧任务更是达到了82%的惊人完成率。
视觉语言能力保持，如虎添翼：动作训练不仅不会损害基础VLM能力，反而使实体接地能力提升21.8个百分点，通用VL能力也得到了完整保留。
数据规模领先，实力雄厚：覆盖20+种机器人形态，每轮训练数据量超过100万条轨迹，多模态样本高达9000万条，奠定了其强大的基础。

Wall-OSS-0.5的探秘之旅

项目地址：https://x2robot.com/oss#resources
Github仓库：https://github.com/X-Square-Robot/wall-x
论文地址：https://x2robot.com/api/files/file/wall_oss_05.pdf

Wall-OSS-0.5与同类竞品的深度对话

对比维度	Wall-OSS-0.5	π0.5	OpenVLA
开发机构	自变量机器人（X Square Robot）	Physical Intelligence（PI）	Stanford 等学术机构
参数规模	40亿（3B Qwen2.5-VL 骨干）	未公开（基于 π0 架构扩展）	70亿（LLaMA 2-7B 骨干）
核心架构	MoT 混合专家 + 梯度桥接协同训练	Transformer 分层推理 + 动作专家	Prismatic VLM（SigLIP + DINOv2 + LLaMA 2）
动作生成方式	离散 token 与连续流匹配协同优化	高层离散 token 自回归 + 低层流匹配去噪	将动作视为语言模型词汇表中的离散 token 预测
训练数据规模	20+ 种机器人形态，每轮 100万+ 轨迹，9000万多模态样本	网络数据 + 跨机器人经验 + 口头指令多源协同	Open X-Embodiment 数据集 97万条轨迹
零样本部署能力	预训练检查点直接部署，17项任务中4项进度超80%	预训练后需后训练/微调，不直接支持零样本硬件部署	预训练模型需任务特定微调，不支持直接零样本部署
微调后性能	15项真实任务平均进度60.5%，领先 π0.5 达17.5个百分点	真实家庭环境任务成功率60%-88%，复杂指令遵循率高	WidowX / Google Robot 多任务成功率领先 RT-2-X 16.5%
开源程度	完全开源（权重、训练代码、配方、消融实验）	研究发布，部分技术细节公开	完全开源（模型权重、代码、LoRA/量化微调方案）
核心创新点	梯度桥接实现预训练即部署，动作与VL能力协同增强不互损	开放世界泛化与层次化推理（高层语义规划 + 低层动作执行）	首个全面开源的通用VLA，验证VLM直接微调生成动作的可行性
VLM能力保持	实体grounding提升21.8%，通用VL理解与推理能力完整保留	依赖网络数据维持语义理解，动作训练后需专门保持	基于预训练VLM微调，语言能力基线较高