字节具身智能新成果：用大规模视频数据训练GR-1，复杂任务轻松应对

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：字节具身智能新成果：用大规模视频数据训练GR-1，复杂任务轻松应对
关键字：机器人,数据,任务,物体,语言
文章来源：机器之心
内容字数：5990字

内容摘要：

机器之心发布
机器之心编辑部如何利用大规模的视频数据来帮助机器人学习复杂任务？
最近 GPT 模型在 NLP 领域取得了巨大成功。GPT 模型首先在大规模的数据上预训练，然后在特定的下游任务的数据上微调。大规模的预训练能够帮助模型学习可泛化的特征，进而让其轻松迁移到下游的任务上。
但相比自然语言数据，机器人数据是十分稀缺的。而且机器人数据包括了图片、语言、机器人状态和机器人动作等多种模态。为了突破这些困难，过去的工作尝试用 contrastive learning [1] 和 masked modeling [2] 等方式来做预训练以帮助机器人更好的学习。
在最新的研究中，ByteDance Research 团队提出 GR-1，首次证明了通过大规模的视频生成式预训练能够大幅提升机器人端到端多任务操作方面的性能和泛化能力。实验证明这种预训练方法可以大幅提升模型表现。在极具挑战的 CALVIN 机器人操作仿真数据集上，GR-1 在 1) 多任务学习 2) 零样本场景迁移 3) 少量数据 4) 零样本语言指令迁移上都取得了 SOTA 的结果。在真机上，经过视频预训练的 GR-1 在未见过的

原文链接：字节具身智能新成果：用大规模视频数据训练GR-1，复杂任务轻松应对