GO-2 – 智元机器人推出的具身智能基座大模型
GO-2:智元机器人发布的性具身智能基座大模型
GO-2,全称Genie Operator-2,是智元机器人倾力打造的第二代具身智能基座大模型。它宛如一座桥梁,成功连接起“理解”、“规划”与“执行”这三大关键环节,有效填补了指令语义与实际动作之间的巨大鸿沟。该模型独创了“动作思维链”这一前沿技术,能够直接在动作空间内进行精密的推理与规划,并巧妙地运用“异步双系统”架构,实现了低频次规划与高频次执行之间的稳定协同。在LIBERO等多项权威基准测试中,GO-2均取得了突破性的成果,刷新了行业最佳表现(SOTA)。通过其配套的Genie Studio平台,GO-2得以在真实世界场景中进行持续学习和规模化部署,让机器人真正从“看懂”走向“稳定执行”。
GO-2的核心功能亮点
- 动作思维链驱动的推理能力:GO-2能够在动作空间内直接进行规划推理,生成结构化的、高层次的动作序列。它能够将复杂任务分解成一系列有序的步骤,真正做到“三思而后行”。
- 异步双系统赋能的稳定执行:低频的“慢系统”负责生成“意图流”式的规划,而高频的“快系统”则能够实时追踪执行过程,并根据实际情况动态调整,确保每一次规划都能被精确无误地实现。
- 统一的语义与动作建模:GO-2成功打通了视觉、语言与动作之间的链路,有效弥合了“理解”与“执行”之间的隔阂,使得抽象的指令能够被精准地转化为物理世界的具体动作。
- 闭环式持续进化机制:借助Genie Studio平台,GO-2采用了“预训练+后训练+数据闭环”的架构。这意味着它能在真实的交互过程中持续采集数据,并进行在线优化,实现模型的不断迭代与进步。
- 跨领域零样本迁移能力:GO-2展现出强大的泛化能力,能够从仿真环境无缝迁移到真实环境,无需重新训练即可适应新的场景、物体以及纹理。
- 复杂任务的可靠执行:该模型能够支持长程任务的规划与执行,并能进行精准的物理交互,例如抓取、放置以及操作物体。在真实环境中,GO-2能够保持稳定可靠的动作执行。
GO-2背后的技术原理剖析
- 动作思维链(Action Chain-of-Thought):与传统具身模型直接从视觉-语言输入生成底层控制信号不同,GO-2引入了动作思维链。这种机制显式地模拟了人类的认知过程:在执行动作之前,先在内部形成清晰的动作计划,避免了“理解”与“执行”在同一时刻完成导致的规划与执行断层。
- 异步双系统架构解析
- 慢系统(Semantic Planner):该系统以较低的频率运行,负责持续生成并细化高层动作规划。它输出的不是一次性的结果,而是以“意图流”的形式提供持续的约束,逐步将宏观动作细化为子动作,形成层次化的动作表示。
- 快系统(Action Refiner):该系统以较高的频率运行,持续接收慢系统的规划指导,并结合实时的视觉观测来生成具体的控制信号。执行过程并非简单地复现规划,而是围绕规划进行实时的对齐与局部修正。例如,当桌面高度与预期不符时,它会自动调整手臂下探的幅度;当物体摩擦特性发生变化时,它会实时调整抓取力度。
- 带噪声教学训练机制:为了确保快系统即使在“接近正确但不完美”的规划条件下也能保持稳定的执行,GO-2在训练阶段引入了带噪声的教学机制。在训练执行模块时,模型会以真实的高层动作序列作为条件,同时加入一定的扰动来模拟规划误差,从而使模型具备在动态环境中持续跟随规划的能力。
- 整体技术闭环的协同:上述各个组件协同工作,形成一个完整而高效的链路:VLM与视觉编码器负责处理多模态输入;动作思维链在动作空间生成可执行的规划;异步双系统确保规划被稳定地执行;执行过程中产生的数据会回流至云端进行后训练,从而实现模型在真实环境中的持续进化。
如何解锁GO-2的强大能力
- 平台化部署与接入:开发者可以通过Genie Studio官方网站(https://genie.agibot.com/geniestudio)轻松接入GO-2基座模型。无需在本地配置复杂的训练环境,即可直接调用模型的核心能力。
- 多模态任务输入:在使用时,向系统输入自然语言指令和当前的视觉观测数据。VLM模块将自动解析任务意图,并全面理解场景信息。
- 动作思维链的规划过程:模型将基于动作思维链,在动作空间内进行细致的推理规划,生成从宏观到微观的多层级结构化动作序列,作为执行的蓝图。
- 异步双系统的执行流程:异步双系统将自动启动。慢系统以低频持续提供“意图流”指导,而快系统则以高频实时追踪,并结合视觉反馈动态调整执行细节。
- 闭环持续进化的体验:在任务执行过程中,系统会自动采集真实的交互数据。通过云端的后训练机制,模型参数将得到持续优化,从而实现从仿真到真实场景的闭环进化。
GO-2的关键信息概览与使用要求
- 全称:Genie Operator-2(GO-2)
- 发布方:智元机器人
- 定位:新一代具身智能基座大模型
- 核心技术:动作思维链(在动作空间内进行推理规划)+ 异步双系统(低频规划与高频执行的协同)
- 解决痛点:有效弥合“语义-鸿沟”,助力机器人实现从“想得明白”到“做得稳定”的飞跃。
- 性能指标:在LIBERO(98.5%)、LIBERO-Plus(86.6%)、GenieSim真实环境(82.9%)等多项测试中全面领先,达到行业顶尖水平(SOTA)。
- 学术认可:已成功被CVPR 2026和ACL 2026两大顶级学术会议接收。
- 部署形态:内置于Genie Studio开发平台,支持云端后训练与数据闭环的持续优化。
GO-2的核心竞争优势
- 弥合鸿沟,实现知行合一:GO-2通过统一的架构,成功打通了逻辑推理与精准动作执行的链路,彻底消除了传统机器人“高层理解”与“底层执行”之间的语义-鸿沟,实现了真正意义上的“知行合一”。
- 首创动作思维链,显式推理规划:GO-2独创的动作思维链机制,在动作空间内显式地完成推理规划,将复杂的任务分解成结构化的动作序列。这使得机器人从“边看边做”转变为“想清楚再做”,极大地降低了执行偏差。
- 异步双系统,确保执行稳定:GO-2采用的异步双系统架构,由低频生成“意图流”规划的慢系统,以及高频实时跟随并动态调整的快系统组成。这种协同工作模式,确保了高层规划在面对真实世界中的各种扰动时,始终能够被稳定地执行。
- 全面刷新SOTA,性能行业领先:GO-2在LIBERO(98.5%)、LIBERO-Plus(86.6%)以及GenieSim真实环境(82.9%)等多项基准测试中,均实现了SOTA的突破,其性能表现显著超越了GR00T、π0.5等主流模型。
- 数据闭环进化,零样本强泛化:GO-2支持在真实场景中持续采集交互数据进行在线优化,并具备强大的零样本跨域迁移能力。即便仅使用仿真数据进行训练,它也能在真实环境中取得82.9%的成功率。
GO-2与同类竞品的深度对比
| 对比维度 | GO-2(智元机器人) | π0.5(Physical Intelligence) | RT-2(Google DeepMind) |
|---|---|---|---|
| 核心架构 | 动作思维链 + 异步双系统 | 流匹配(Flow Matching)架构 | VLA端到端(基于PaLI-X) |
| 规划方式 | 在动作空间显式推理,生成结构化高层动作序列 | 直接生成动作,无显式中间规划层 | 直接从像素和指令映射为动作标记 |
| 执行机制 | 异步双系统:慢系统低频提供“意图流”+快系统高频实时跟随修正 | 单一生成模型端到端同时完成理解与执行 | 端到端直接输出控制信号 |
| 关键优势 | 弥合语义-鸿沟,规划与执行对齐,真实场景稳定性强 | 互联网规模视觉-语言预训练,高频动作生成能力强 | 经典VLA先驱,架构简洁,端到端训练 |
| 主要局限 | 商业闭源,需配套智元硬件生态 | 规划与执行压缩在同一时刻,真实场景稳定性待提升 | 高层推理与底层控制断层,长程任务误差累积明显 |
| LIBERO成功率 | 98.7% | 96.9% | 未公开/显著较低 |
| GenieSim真实环境 | 82.9%(零样本迁移) | 77.5% | 通常低于60% |
| 进化能力 | 支持数据闭环持续进化(预训练+后训练) | 依赖离线静态数据 | 依赖离线静态数据 |
GO-2的广泛应用前景
- 工业制造场景:在复杂的工厂生产线上,GO-2能够驱动机器人执行精密的零部件装配、质量检测以及工具操作等任务。其数据闭环学习能力使其能够持续适应不同工位的特性,实现从仿真训练到真实产线的零样本迁移,从而显著降低产线切换时的调试成本。
- 商业服务场景:GO-2适用于商超、酒店、写字楼等场所的导引、清洁、零售补货等服务任务。凭借其强大的跨场景泛化能力,无需针对每个门店进行数据采集,即可稳定适应不同的货架布局、光照条件和人流环境。
- 物流仓储场景:在物流仓储领域,GO-2能够高效完成分拣、搬运、码垛等重复性操作。其异步双系统架构保证了机器人在高速中动作的精准性,有效避免因视觉偏差导致的抓取失误或碰撞。同时,通过持续的数据采集,模型能够不断优化对不同包裹形状和重量的适应能力。
- 具身智能科研平台:作为一款强大的基座模型,GO-2为高校和研究机构提供了一个即插即用的具身智能开发平台。研究者可以通过Genie Studio快速部署模型,进行算法验证、数据采集和二次开发,从而加速具身智能领域的学术研究和技术迭代进程。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



粤公网安备 44011502001135号