首个精通3D任务的具身通才智能体：感知、推理、规划、行动统统拿下

AIGC动态3年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：首个精通3D任务的具身通才智能体：感知、推理、规划、行动统统拿下

文章来源：机器之心

内容字数：9434字

内容摘要：机器之心专栏机器之心编辑部想要迈向通用人工智能，必须要构建一个能够理解人类生活的真实世界，并掌握丰富技能的具身通用智能体。今年以来，以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等为代表的多模态大语言模型（Multi-modal Large Language Model）在自然语言处理、视觉理解、机器人等任务上取得了显著的成功，但这类模型都是基于二维图片文本数据训练得到，在理解三维世界和与三维世界交互方面能力欠缺。为解决这一问题，北京通用人工智能研究院联合北京大学、梅隆大学和清华大学的研究人员提出了首个三维世界中的具身多任务多模态的通才智能体 LEO。论文链接：https://arxiv.org/abs/2311.12871项目主页：https://embodied-generalist.github.io/代码链接：https://github.com/e…

原文链接：点此阅读原文：首个精通3D任务的具身通才智能体：感知、推理、规划、行动统统拿下