机器人轻松模仿人类，还能泛化到不同任务和智能体！微软新研究，学习人类和机器人统一动作表示

AIGC动态欢迎阅读

原标题：机器人轻松模仿人类，还能泛化到不同任务和智能体！微软新研究，学习人类和机器人统一动作表示
关键字：动作,解读,表示,模型,视频
文章来源：量子位
内容字数：0字

内容摘要：

IGOR团队投稿量子位 | 公众号 QbitAI让机械臂模仿人类动作的新方法来了，不怕缺高质量机器人数据的那种。
微软提出图像目标表示（IGOR，Image-GOal Representation），“投喂”模型人类与现实世界的交互数据。
IGOR能直接为人类和机器人学习一个统一的动作表示空间，实现跨任务和智能体的知识迁移以及下游任务效果的提升。
要知道，在训练具身智能领域的基础模型时，高质量带有标签的机器人数据是保证模型质量的关键，而直接采集机器人数据成本较高。
考虑到互联网视频数据中也展示了丰富的人类活动，包括人类是如何与现实世界中的各种物体进行交互的，由此来自微软的研究团队提出了IGOR。
究竟怎样才能学到人类和机器人统一的动作表示呢？
IGOR框架解读IGOR框架如下所示，包含三个基础模型：
Latent Action Model、Policy Model和World Model。
具体来说，IGOR先是提出了潜在动作模型LAM（Latent Action Model），将初始状态和目标状态之间的视觉变化压缩为低维向量，并通过最小化初始状态和动作向量对目标状态的重建损失来进行

原文链接：机器人轻松模仿人类，还能泛化到不同任务和智能体！微软新研究，学习人类和机器人统一动作表示