用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上

AIGC动态12个月前发布 机器之心
13 0 0

用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上

AIGC动态欢迎阅读

原标题:用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上

关键字:任务,视频,机器人,物体,分析器

文章来源:机器之心

内容字数:7831字

内容摘要:机器之心报道编辑:赵阳微软提出使用人手运动视频直接教机器人完成任务的新方法,这种方法使用 GPT-4V 分解视频中的动作,结合大语言模型生成对应的行为表述并作为任务列表,训练机器人只需要动动手就能完成。如何将语言 / 视觉输入转换为机器人动作?训练自定义模型的方法已经过时,基于最近大语言模型(LLM)和视觉语言模型(VLM)的技术进展,通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门的方法。这种方法绕过了海量数据的收集和对模型的训练过程,展示出了强大的灵活性,而且对不同机器人硬件更具适应性,并增强了系统对研究和工业应用的可重用性。特别是最近出现了通用视觉大模型(VLM),如 GPT-4V,将这些视觉系统集成到任务规划中,为开发基于多模态人类指令的任务规划器提供了可能性。在近期微软的一篇论文中,研究者利用 GPT-4V 和 GPT-4(图 1)分别作为最新…

原文链接:点此阅读原文:用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...