用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上

文章来源：机器之心

内容字数：7831字

内容摘要：机器之心报道编辑：赵阳微软提出使用人手视频直接教机器人完成任务的新方法，这种方法使用 GPT-4V 分解视频中的动作，结合大语言模型生成对应的行为表述并作为任务列表，训练机器人只需要动动手就能完成。如何将语言 / 视觉输入转换为机器人动作？训练自定义模型的方法已经过时，基于最近大语言模型（LLM）和视觉语言模型（VLM）的技术进展，通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门的方法。这种方法绕过了海量数据的收集和对模型的训练过程，展示出了强大的灵活性，而且对不同机器人硬件更具适应性，并增强了系统对研究和工业应用的可重用性。特别是最近出现了通用视觉大模型（VLM），如 GPT-4V，将这些视觉系统集成到任务规划中，为开发基于多模态人类指令的任务规划器提供了可能性。在近期微软的一篇论文中，研究者利用 GPT-4V 和 GPT-4（图 1）分别作为最新…

原文链接：点此阅读原文：用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上