腾讯发布实体任务规划基准，GPT-4V也频频出错！迈向大模型与物理世界交互！

AIGC动态2年前 (2023)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：腾讯发布实体任务规划基准，GPT-4V也频频出错！迈向大模型与物理世界交互！
关键字：任务,模型,目标,腾讯,视觉
文章来源：夕小瑶科技说
内容字数：8400字

内容摘要：

夕小瑶科技说原创作者 | 智商掉了一地、Python多模态大型语言模型（MLLM）目前主要通过数字化的方式与信息世界进行交互，涉及自然语言处理、计算机视觉和多模态生成任务等领域。然而，将这些模型引入物理世界时，我们要求它们不仅能够在虚拟环境中执行任务，还要具备理解和参与现实生活场景的能力。从机器人执行物理任务到语言模型在实际环境中规划任务的能力，大型模型与物理世界的交互将为人工智能的发展开辟崭新的篇章。
MLLM 能够有效整合不同来源的信息，包括实时任务进展、视觉观察以及开放式语言指令等多样化的上下文输入。这种整合能力使模型能够更全面地理解周围环境，并且能够根据任务目标生成相应路径规划。具体来说:
实时任务进展：提供了关于任务当前状态的关键信息；
视觉观察：使模型能够感知环境中的物体、状态变化和空间关系；
开放式语言指令：为模型提供了任务的高层描述和指导。
腾讯提出的 EgoPlan-Bench 通过考虑任务的高层目标、当前视觉观察和语言指令，使模型能够预测下一个可行的动作。这种规划能力让模型仿佛具有自主思考和执行任务的能力，能够逐步执行动作。与传统的自我中心视频问答基准不同，Ego

原文链接：腾讯发布实体任务规划基准，GPT-4V也频频出错！迈向大模型与物理世界交互！