从文字模型到世界模型!Meta新研究让AI Agent理解物理世界

AIGC动态7个月前发布 新智元
5 0 0

从文字模型到世界模型!Meta新研究让AI Agent理解物理世界

AIGC动态欢迎阅读

原标题:从文字模型世界模型!Meta新研究让AI Agent理解物理世界
关键字:问题,模型,世界,基准,词汇
文章来源:新智元
内容字数:4096字

内容摘要:


新智元报道编辑:Mindy
【新智元导读】Meta新发布的开放词汇体验问答(OpenEQA)基准,旨在衡量AI Agent对物理空间的理解能力,但目前AI Agent的水平还是无法与人类媲美。LLM已经可以理解文本和图片了,也能够根据它们的历史知识回答各种问题,但它们或许对周围世界当前发生的事情一无所知。
现在LLMs也开始逐步学习理解3D物理空间,通过增强LLMs的「看到」世界的能力,人们可以开发新的应用,在更多场景去获取LLMs的帮助。
AI Agent,比如机器人或是智能眼镜,它们可以通过感知和理解环境来回答一些开放性问题,比如「我把钥匙放哪里了?」
这样的AI Agent需要利用视觉等感知模式来理解其周围环境,并能够用清晰的日常语言有效地与人交流。
这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。
这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。
Meta的新研究OpenEQA(Embodied Question Answering)框架,即开放词汇体验问答框架,为我们探索这个领域提供了新


原文链接:从文字模型到世界模型!Meta新研究让AI Agent理解物理世界

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...