Embodied Reasoner

Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型

Embodied Reasoner

Embodied Reasoner是什么

Embodied Reasoner是由浙江大学、中国科学院软件研究所与阿里巴巴集团等机构共同研发的一款先进的具身交互推理模型。该模型通过整合视觉搜索、推理与行动的协同机制，在复杂任务中展现出卓越的能力。其训练过程采用了模仿学习、自我探索和自我修正的三阶段方法，能够生成丰富多样的思考过程，包括情境分析、空间推理和自我反思等，从而在交互历史和空间布局的基础上进行高效的任务规划与推理。在AI2-THOR模拟器的多项任务中，Embodied Reasoner的表现明显优于现有的视觉推理模型，尤其在处理复杂长时序任务时，成功减少了重复搜索与逻辑不一致的现象。

Embodied Reasoner的主要功能

视觉搜索与目标定位：在复杂的环境中，能够有效地搜索并定位隐藏或显露的物体，满足任务需求。
推理与规划：通过生成多样的思考过程，制定高效的行动策略，以应对各种任务。
行动执行：依据推理结果执行相应的动作，如导航、抓取和放置，顺利完成任务。
自我修正与学习：通过反思和自我修正机制，减少重复搜索和逻辑不一致问题，提高任务成功率。
复杂任务处理：擅长处理需要长时间序列和多个步骤的复杂任务。

Embodied Reasoner的技术原理

数据引擎：通过任务模板和场景元数据自动生成任务指令及相应的“观察-思考-行动”轨迹，涵盖丰富的思考过程与交互图像。
三阶段训练：
- 模仿学习：在合成轨迹上进行微调，掌握基本的交互技能。
- 自我探索（拒绝采样）：通过采样和评估生成的轨迹，增强模型的探索能力。
- 自我修正（反思调整）：引入异常状态并进行反思修正，以提升模型的自适应能力。
多模态交互：结合视觉输入（图像）和语言输出（思考与动作），实现高效的环境交互与任务完成。
推理机制：基于生成的长思考序列，模拟人类的推理过程，提升模型在复杂任务中的表现。