机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：机器人领域首个开源视觉–语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能
关键字：机器人,语言,任务,模型,视觉
文章来源：机器之心
内容字数：7960字

内容摘要：

机器之心专栏
机器之心编辑部还在苦苦寻找开源的机器人大模型？试试RoboFlamingo！
近年来，大模型的研究正在加速推进，它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求，这自然引申出一个问题：能不能充分利用大模型能力，将其迁移到机器人领域，直接规划底层动作序列呢？
对此，ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。使用简单、少量的微调就可以把 VLM 变成 Robotics VLM，从而适用于语言交互的机器人操作任务。
OpenFlamingo 在机器人操作数据集 CALVIN 上进行了验证，实验结果表明，RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能。随着 RT-X 数据集开放，采用开源数据预训练 RoboFlamingo 并 finetune 到不同机器人平台，将有希望成为一个简单有效的

原文链接：机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能