GO-2

GO-2 – 智元机器人推出的具身智能基座大模型

GO-2：智元机器人发布的性具身智能基座大模型

GO-2，全称Genie Operator-2，是智元机器人倾力打造的第二代具身智能基座大模型。它宛如一座桥梁，成功连接起“理解”、“规划”与“执行”这三大关键环节，有效填补了指令语义与实际动作之间的巨大鸿沟。该模型独创了“动作思维链”这一前沿技术，能够直接在动作空间内进行精密的推理与规划，并巧妙地运用“异步双系统”架构，实现了低频次规划与高频次执行之间的稳定协同。在LIBERO等多项权威基准测试中，GO-2均取得了突破性的成果，刷新了行业最佳表现（SOTA）。通过其配套的Genie Studio平台，GO-2得以在真实世界场景中进行持续学习和规模化部署，让机器人真正从“看懂”走向“稳定执行”。

GO-2的核心功能亮点

动作思维链驱动的推理能力：GO-2能够在动作空间内直接进行规划推理，生成结构化的、高层次的动作序列。它能够将复杂任务分解成一系列有序的步骤，真正做到“三思而后行”。
异步双系统赋能的稳定执行：低频的“慢系统”负责生成“意图流”式的规划，而高频的“快系统”则能够实时追踪执行过程，并根据实际情况动态调整，确保每一次规划都能被精确无误地实现。
统一的语义与动作建模：GO-2成功打通了视觉、语言与动作之间的链路，有效弥合了“理解”与“执行”之间的隔阂，使得抽象的指令能够被精准地转化为物理世界的具体动作。
闭环式持续进化机制：借助Genie Studio平台，GO-2采用了“预训练+后训练+数据闭环”的架构。这意味着它能在真实的交互过程中持续采集数据，并进行在线优化，实现模型的不断迭代与进步。
跨领域零样本迁移能力：GO-2展现出强大的泛化能力，能够从仿真环境无缝迁移到真实环境，无需重新训练即可适应新的场景、物体以及纹理。
复杂任务的可靠执行：该模型能够支持长程任务的规划与执行，并能进行精准的物理交互，例如抓取、放置以及操作物体。在真实环境中，GO-2能够保持稳定可靠的动作执行。

GO-2背后的技术原理剖析

动作思维链（Action Chain-of-Thought）：与传统具身模型直接从视觉-语言输入生成底层控制信号不同，GO-2引入了动作思维链。这种机制显式地模拟了人类的认知过程：在执行动作之前，先在内部形成清晰的动作计划，避免了“理解”与“执行”在同一时刻完成导致的规划与执行断层。
异步双系统架构解析
- 慢系统（Semantic Planner）：该系统以较低的频率运行，负责持续生成并细化高层动作规划。它输出的不是一次性的结果，而是以“意图流”的形式提供持续的约束，逐步将宏观动作细化为子动作，形成层次化的动作表示。
- 快系统（Action Refiner）：该系统以较高的频率运行，持续接收慢系统的规划指导，并结合实时的视觉观测来生成具体的控制信号。执行过程并非简单地复现规划，而是围绕规划进行实时的对齐与局部修正。例如，当桌面高度与预期不符时，它会自动调整手臂下探的幅度；当物体摩擦特性发生变化时，它会实时调整抓取力度。
带噪声教学训练机制：为了确保快系统即使在“接近正确但不完美”的规划条件下也能保持稳定的执行，GO-2在训练阶段引入了带噪声的教学机制。在训练执行模块时，模型会以真实的高层动作序列作为条件，同时加入一定的扰动来模拟规划误差，从而使模型具备在动态环境中持续跟随规划的能力。
整体技术闭环的协同：上述各个组件协同工作，形成一个完整而高效的链路：VLM与视觉编码器负责处理多模态输入；动作思维链在动作空间生成可执行的规划；异步双系统确保规划被稳定地执行；执行过程中产生的数据会回流至云端进行后训练，从而实现模型在真实环境中的持续进化。

如何解锁GO-2的强大能力

平台化部署与接入：开发者可以通过Genie Studio官方网站（https://genie.agibot.com/geniestudio）轻松接入GO-2基座模型。无需在本地配置复杂的训练环境，即可直接调用模型的核心能力。
多模态任务输入：在使用时，向系统输入自然语言指令和当前的视觉观测数据。VLM模块将自动解析任务意图，并全面理解场景信息。
动作思维链的规划过程：模型将基于动作思维链，在动作空间内进行细致的推理规划，生成从宏观到微观的多层级结构化动作序列，作为执行的蓝图。
异步双系统的执行流程：异步双系统将自动启动。慢系统以低频持续提供“意图流”指导，而快系统则以高频实时追踪，并结合视觉反馈动态调整执行细节。
闭环持续进化的体验：在任务执行过程中，系统会自动采集真实的交互数据。通过云端的后训练机制，模型参数将得到持续优化，从而实现从仿真到真实场景的闭环进化。

GO-2的关键信息概览与使用要求

全称：Genie Operator-2（GO-2）
发布方：智元机器人
定位：新一代具身智能基座大模型
核心技术：动作思维链（在动作空间内进行推理规划）+ 异步双系统（低频规划与高频执行的协同）
解决痛点：有效弥合“语义-鸿沟”，助力机器人实现从“想得明白”到“做得稳定”的飞跃。
性能指标：在LIBERO（98.5%）、LIBERO-Plus（86.6%）、GenieSim真实环境（82.9%）等多项测试中全面领先，达到行业顶尖水平（SOTA）。
学术认可：已成功被CVPR 2026和ACL 2026两大顶级学术会议接收。
部署形态：内置于Genie Studio开发平台，支持云端后训练与数据闭环的持续优化。

GO-2的核心竞争优势

弥合鸿沟，实现知行合一：GO-2通过统一的架构，成功打通了逻辑推理与精准动作执行的链路，彻底消除了传统机器人“高层理解”与“底层执行”之间的语义-鸿沟，实现了真正意义上的“知行合一”。
首创动作思维链，显式推理规划：GO-2独创的动作思维链机制，在动作空间内显式地完成推理规划，将复杂的任务分解成结构化的动作序列。这使得机器人从“边看边做”转变为“想清楚再做”，极大地降低了执行偏差。
异步双系统，确保执行稳定：GO-2采用的异步双系统架构，由低频生成“意图流”规划的慢系统，以及高频实时跟随并动态调整的快系统组成。这种协同工作模式，确保了高层规划在面对真实世界中的各种扰动时，始终能够被稳定地执行。
全面刷新SOTA，性能行业领先：GO-2在LIBERO（98.5%）、LIBERO-Plus（86.6%）以及GenieSim真实环境（82.9%）等多项基准测试中，均实现了SOTA的突破，其性能表现显著超越了GR00T、π0.5等主流模型。
数据闭环进化，零样本强泛化：GO-2支持在真实场景中持续采集交互数据进行在线优化，并具备强大的零样本跨域迁移能力。即便仅使用仿真数据进行训练，它也能在真实环境中取得82.9%的成功率。

GO-2与同类竞品的深度对比

对比维度	GO-2（智元机器人）	π0.5（Physical Intelligence）	RT-2（Google DeepMind）
核心架构	动作思维链 + 异步双系统	流匹配（Flow Matching）架构	VLA端到端（基于PaLI-X）
规划方式	在动作空间显式推理，生成结构化高层动作序列	直接生成动作，无显式中间规划层	直接从像素和指令映射为动作标记
执行机制	异步双系统：慢系统低频提供“意图流”+快系统高频实时跟随修正	单一生成模型端到端同时完成理解与执行	端到端直接输出控制信号
关键优势	弥合语义-鸿沟，规划与执行对齐，真实场景稳定性强	互联网规模视觉-语言预训练，高频动作生成能力强	经典VLA先驱，架构简洁，端到端训练
主要局限	商业闭源，需配套智元硬件生态	规划与执行压缩在同一时刻，真实场景稳定性待提升	高层推理与底层控制断层，长程任务误差累积明显
LIBERO成功率	98.7%	96.9%	未公开/显著较低
GenieSim真实环境	82.9%（零样本迁移）	77.5%	通常低于60%
进化能力	支持数据闭环持续进化（预训练+后训练）	依赖离线静态数据	依赖离线静态数据

GO-2的广泛应用前景

工业制造场景：在复杂的工厂生产线上，GO-2能够驱动机器人执行精密的零部件装配、质量检测以及工具操作等任务。其数据闭环学习能力使其能够持续适应不同工位的特性，实现从仿真训练到真实产线的零样本迁移，从而显著降低产线切换时的调试成本。
商业服务场景：GO-2适用于商超、酒店、写字楼等场所的导引、清洁、零售补货等服务任务。凭借其强大的跨场景泛化能力，无需针对每个门店进行数据采集，即可稳定适应不同的货架布局、光照条件和人流环境。
物流仓储场景：在物流仓储领域，GO-2能够高效完成分拣、搬运、码垛等重复性操作。其异步双系统架构保证了机器人在高速中动作的精准性，有效避免因视觉偏差导致的抓取失误或碰撞。同时，通过持续的数据采集，模型能够不断优化对不同包裹形状和重量的适应能力。
具身智能科研平台：作为一款强大的基座模型，GO-2为高校和研究机构提供了一个即插即用的具身智能开发平台。研究者可以通过Genie Studio快速部署模型，进行算法验证、数据采集和二次开发，从而加速具身智能领域的学术研究和技术迭代进程。

阅读原文