GO-2

AI工具15分钟前更新 AI工具集
0 0 0

GO-2 – 智元机器人推出的具身智能基座大模型

GO-2:智元机器人发布的性具身智能基座大模型

GO-2,全称Genie Operator-2,是智元机器人倾力打造的第二代具身智能基座大模型。它宛如一座桥梁,成功连接起“理解”、“规划”与“执行”这三大关键环节,有效填补了指令语义与实际动作之间的巨大鸿沟。该模型独创了“动作思维链”这一前沿技术,能够直接在动作空间内进行精密的推理与规划,并巧妙地运用“异步双系统”架构,实现了低频次规划与高频次执行之间的稳定协同。在LIBERO等多项权威基准测试中,GO-2均取得了突破性的成果,刷新了行业最佳表现(SOTA)。通过其配套的Genie Studio平台,GO-2得以在真实世界场景中进行持续学习和规模化部署,让机器人真正从“看懂”走向“稳定执行”。

GO-2的核心功能亮点

  • 动作思维链驱动的推理能力:GO-2能够在动作空间内直接进行规划推理,生成结构化的、高层次的动作序列。它能够将复杂任务分解成一系列有序的步骤,真正做到“三思而后行”。
  • 异步双系统赋能的稳定执行:低频的“慢系统”负责生成“意图流”式的规划,而高频的“快系统”则能够实时追踪执行过程,并根据实际情况动态调整,确保每一次规划都能被精确无误地实现。
  • 统一的语义与动作建模:GO-2成功打通了视觉、语言与动作之间的链路,有效弥合了“理解”与“执行”之间的隔阂,使得抽象的指令能够被精准地转化为物理世界的具体动作。
  • 闭环式持续进化机制:借助Genie Studio平台,GO-2采用了“预训练+后训练+数据闭环”的架构。这意味着它能在真实的交互过程中持续采集数据,并进行在线优化,实现模型的不断迭代与进步。
  • 跨领域零样本迁移能力:GO-2展现出强大的泛化能力,能够从仿真环境无缝迁移到真实环境,无需重新训练即可适应新的场景、物体以及纹理。
  • 复杂任务的可靠执行:该模型能够支持长程任务的规划与执行,并能进行精准的物理交互,例如抓取、放置以及操作物体。在真实环境中,GO-2能够保持稳定可靠的动作执行。

GO-2背后的技术原理剖析

  • 动作思维链(Action Chain-of-Thought):与传统具身模型直接从视觉-语言输入生成底层控制信号不同,GO-2引入了动作思维链。这种机制显式地模拟了人类的认知过程:在执行动作之前,先在内部形成清晰的动作计划,避免了“理解”与“执行”在同一时刻完成导致的规划与执行断层。
  • 异步双系统架构解析
    • 慢系统(Semantic Planner):该系统以较低的频率运行,负责持续生成并细化高层动作规划。它输出的不是一次性的结果,而是以“意图流”的形式提供持续的约束,逐步将宏观动作细化为子动作,形成层次化的动作表示。
    • 快系统(Action Refiner):该系统以较高的频率运行,持续接收慢系统的规划指导,并结合实时的视觉观测来生成具体的控制信号。执行过程并非简单地复现规划,而是围绕规划进行实时的对齐与局部修正。例如,当桌面高度与预期不符时,它会自动调整手臂下探的幅度;当物体摩擦特性发生变化时,它会实时调整抓取力度。
  • 带噪声教学训练机制:为了确保快系统即使在“接近正确但不完美”的规划条件下也能保持稳定的执行,GO-2在训练阶段引入了带噪声的教学机制。在训练执行模块时,模型会以真实的高层动作序列作为条件,同时加入一定的扰动来模拟规划误差,从而使模型具备在动态环境中持续跟随规划的能力。
  • 整体技术闭环的协同:上述各个组件协同工作,形成一个完整而高效的链路:VLM与视觉编码器负责处理多模态输入;动作思维链在动作空间生成可执行的规划;异步双系统确保规划被稳定地执行;执行过程中产生的数据会回流至云端进行后训练,从而实现模型在真实环境中的持续进化。

如何解锁GO-2的强大能力

  • 平台化部署与接入:开发者可以通过Genie Studio官方网站(https://genie.agibot.com/geniestudio)轻松接入GO-2基座模型。无需在本地配置复杂的训练环境,即可直接调用模型的核心能力。
  • 多模态任务输入:在使用时,向系统输入自然语言指令和当前的视觉观测数据。VLM模块将自动解析任务意图,并全面理解场景信息。
  • 动作思维链的规划过程:模型将基于动作思维链,在动作空间内进行细致的推理规划,生成从宏观到微观的多层级结构化动作序列,作为执行的蓝图。
  • 异步双系统的执行流程:异步双系统将自动启动。慢系统以低频持续提供“意图流”指导,而快系统则以高频实时追踪,并结合视觉反馈动态调整执行细节。
  • 闭环持续进化的体验:在任务执行过程中,系统会自动采集真实的交互数据。通过云端的后训练机制,模型参数将得到持续优化,从而实现从仿真到真实场景的闭环进化。

GO-2的关键信息概览与使用要求

  • 全称:Genie Operator-2(GO-2)
  • 发布方:智元机器人
  • 定位:新一代具身智能基座大模型
  • 核心技术:动作思维链(在动作空间内进行推理规划)+ 异步双系统(低频规划与高频执行的协同)
  • 解决痛点:有效弥合“语义-鸿沟”,助力机器人实现从“想得明白”到“做得稳定”的飞跃。
  • 性能指标:在LIBERO(98.5%)、LIBERO-Plus(86.6%)、GenieSim真实环境(82.9%)等多项测试中全面领先,达到行业顶尖水平(SOTA)。
  • 学术认可:已成功被CVPR 2026和ACL 2026两大顶级学术会议接收。
  • 部署形态:内置于Genie Studio开发平台,支持云端后训练与数据闭环的持续优化。

GO-2的核心竞争优势

  • 弥合鸿沟,实现知行合一:GO-2通过统一的架构,成功打通了逻辑推理与精准动作执行的链路,彻底消除了传统机器人“高层理解”与“底层执行”之间的语义-鸿沟,实现了真正意义上的“知行合一”。
  • 首创动作思维链,显式推理规划:GO-2独创的动作思维链机制,在动作空间内显式地完成推理规划,将复杂的任务分解成结构化的动作序列。这使得机器人从“边看边做”转变为“想清楚再做”,极大地降低了执行偏差。
  • 异步双系统,确保执行稳定:GO-2采用的异步双系统架构,由低频生成“意图流”规划的慢系统,以及高频实时跟随并动态调整的快系统组成。这种协同工作模式,确保了高层规划在面对真实世界中的各种扰动时,始终能够被稳定地执行。
  • 全面刷新SOTA,性能行业领先:GO-2在LIBERO(98.5%)、LIBERO-Plus(86.6%)以及GenieSim真实环境(82.9%)等多项基准测试中,均实现了SOTA的突破,其性能表现显著超越了GR00T、π0.5等主流模型。
  • 数据闭环进化,零样本强泛化:GO-2支持在真实场景中持续采集交互数据进行在线优化,并具备强大的零样本跨域迁移能力。即便仅使用仿真数据进行训练,它也能在真实环境中取得82.9%的成功率。

GO-2与同类竞品的深度对比

对比维度GO-2(智元机器人)π0.5(Physical Intelligence)RT-2(Google DeepMind)
核心架构动作思维链 + 异步双系统流匹配(Flow Matching)架构VLA端到端(基于PaLI-X)
规划方式在动作空间显式推理,生成结构化高层动作序列直接生成动作,无显式中间规划层直接从像素和指令映射为动作标记
执行机制异步双系统:慢系统低频提供“意图流”+快系统高频实时跟随修正单一生成模型端到端同时完成理解与执行端到端直接输出控制信号
关键优势弥合语义-鸿沟,规划与执行对齐,真实场景稳定性强互联网规模视觉-语言预训练,高频动作生成能力强经典VLA先驱,架构简洁,端到端训练
主要局限商业闭源,需配套智元硬件生态规划与执行压缩在同一时刻,真实场景稳定性待提升高层推理与底层控制断层,长程任务误差累积明显
LIBERO成功率98.7%96.9%未公开/显著较低
GenieSim真实环境82.9%(零样本迁移)77.5%通常低于60%
进化能力支持数据闭环持续进化(预训练+后训练)依赖离线静态数据依赖离线静态数据

GO-2的广泛应用前景

  • 工业制造场景:在复杂的工厂生产线上,GO-2能够驱动机器人执行精密的零部件装配、质量检测以及工具操作等任务。其数据闭环学习能力使其能够持续适应不同工位的特性,实现从仿真训练到真实产线的零样本迁移,从而显著降低产线切换时的调试成本。
  • 商业服务场景:GO-2适用于商超、酒店、写字楼等场所的导引、清洁、零售补货等服务任务。凭借其强大的跨场景泛化能力,无需针对每个门店进行数据采集,即可稳定适应不同的货架布局、光照条件和人流环境。
  • 物流仓储场景:在物流仓储领域,GO-2能够高效完成分拣、搬运、码垛等重复性操作。其异步双系统架构保证了机器人在高速中动作的精准性,有效避免因视觉偏差导致的抓取失误或碰撞。同时,通过持续的数据采集,模型能够不断优化对不同包裹形状和重量的适应能力。
  • 具身智能科研平台:作为一款强大的基座模型,GO-2为高校和研究机构提供了一个即插即用的具身智能开发平台。研究者可以通过Genie Studio快速部署模型,进行算法验证、数据采集和二次开发,从而加速具身智能领域的学术研究和技术迭代进程。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...