腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!

AIGC动态欢迎阅读

原标题:腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!
关键字:任务,模型,目标,腾讯,视觉
文章来源:夕小瑶科技说
内容字数:8400字

内容摘要:


夕小瑶科技说 原创作者 | 智商掉了一地、Python多模态大型语言模型(MLLM)目前主要通过数字化的方式与信息世界进行交互,涉及自然语言处理、计算机视觉和多模态生成任务等领域。然而,将这些模型引入物理世界时,我们要求它们不仅能够在虚拟环境中执行任务,还要具备理解和参与现实生活场景的能力。从机器人执行物理任务到语言模型在实际环境中规划任务的能力,大型模型与物理世界的交互将为人工智能的发展开辟崭新的篇章。
MLLM 能够有效整合不同来源的信息,包括实时任务进展、视觉观察以及开放式语言指令等多样化的上下文输入。这种整合能力使模型能够更全面地理解周围环境,并且能够根据任务目标生成相应路径规划。具体来说:
实时任务进展:提供了关于任务当前状态的关键信息;
视觉观察:使模型能够感知环境中的物体、状态变化和空间关系;
开放式语言指令:为模型提供了任务的高层描述和指导。
腾讯提出的 EgoPlan-Bench 通过考虑任务的高层目标、当前视觉观察和语言指令,使模型能够预测下一个可行的动作。这种规划能力让模型仿佛具有自主思考和执行任务的能力,能够逐步执行动作。与传统的自我中心视频问答基准不同,Ego


原文链接:腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...