实时人-机-物交互框架 RHINO:人形机器人助手从人类交互数据中学会「察言观色」

RHINO 旨在赋予人形机器人实时响应人类指令、灵活切换任务的能力,通过学习人类交互数据,让机器人学会 “察言观色”​。

实时人-机-物交互框架 RHINO:人形机器人助手从人类交互数据中学会「察言观色」

原标题:实时人-机-物交互框架 RHINO:人形机器人助手从人类交互数据中学会「察言观色」
文章来源:AI科技评论
内容字数:7367字

上海交大RHINO框架:赋予人形机器人实时人机交互能力

本文介绍了上海交通大学研究团队提出的实时人机物交互框架RHINO,该框架旨在解决人形机器人在复杂交互场景中实时响应与数据处理的难题,使其能够成为人类日常生活中真正得力的助手。

1. RHINO框架概述

RHINO框架将人机交互过程建模为领导者-跟随者模式,人类作为领导者,机器人作为跟随者,通过一系列技能完类意图。该框架的核心在于其分层学习架构,将交互过程分解为多个子模块,包括反应式规划器、交互技能模块、操作技能模块和安全监督模块。这种分解式设计提升了模型的泛化能力,使其能够更好地适应不同的场景和人类行为。

2. 关键模块

  1. 反应式规划器:

    基于Transformer架构,以30Hz频率实时推断人类意图,并决定机器人的下一个技能。它融合了人类身体姿态、手部动作、物体信息等多模态数据,能够灵活处理技能的启动、中断和切换。

  2. 交互技能模块:

    采用多体扩散模型,基于历史数据预测未来机器人,生成平滑自然的交互动作,例如挥手、握手等。该模块能够实时反馈人类意图。

  3. 操作技能模块:

    为每个低层级操作技能训练的ACT模型,实现精确的物体操作,例如拿起、放下、盖章等。该模块学习技能的成功条件,并能判断任务是否完成。

  4. 安全监督模块:

    实时监测机器人与人类之间的距离,防止碰撞,保障人机交互安全性。

3. 数据收集与训练

RHINO框架的训练数据包括人-物-人交互数据和遥操作数据。人-物-人数据用于学习理解人类意图和交互动作技能;遥操作数据用于学习精确的物体操作技能。这些数据涵盖了餐饮和办公场景下的日常交互任务。

4. 实验结果与评估

实验结果表明,RHINO框架在人类意图预测、生成和物体操作方面均取得了优异的性能。在人类意图预测方面,RHINO优于基线模型;在生成方面,RHINO生成的更自然流畅;在物体操作方面,RHINO在许多任务上的成功率甚至超过人类。此外,RHINO框架在处理多技能任务和应对分布外数据方面也表现出良好的鲁棒性。

5. 结论

RHINO框架通过创新的分层学习架构,成功实现了人形机器人的实时人机物交互。其高效性、灵活性和安全性使其在多种场景下都具有应用潜力,为人形机器人成为人类日常生活中得力助手铺平了道路。


联系作者

文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...