李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS
关键字：目标,模型,环境,能力,任务
文章来源：量子位
内容字数：0字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI大模型的具身智能决策能力，终于有系统的通用评估基准了。
李飞飞吴佳俊团队新提出的评估框架，对具身智能决策的四项关键子能力来了个全面检查。
这套基准已经被选为了NeurIPS数据和测试集（D&B）专栏Oral论文，同时也被收录进了PyPI，只要一行代码就能快速调用。
该框架名为Embodied Agent Interface（简称EAI），提供了连接不同模块和基准环境的标准接口。
利用这套框架，作者对18款主流模型进行了测试，形成了一篇超百页的论文。
测试结果显示，在已公开的大模型当中，o1-preview的综合成绩位列第一。
李飞飞本人表示，对这项合作研究感到非常兴奋。
有网友评价说，这项成果为大模型具身智能决策塑造了未来。
四项子能力全面评估首先，EAI提供了一种统一的目标表示方法，能够兼容不同类型的目标，并支持复杂约束的描述。
团队认为，现有的具身决策任务通常针对特定领域设计目标，缺乏一致性和通用性。
例如，BEHAVIOR和VirtualHome都是具身智能体的评测基准和模拟环境，用于研究智能体在复杂环境中完成任务的能力。
但二

原文链接：李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS