李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶 | NeurIPS

李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶 | NeurIPS

AIGC动态欢迎阅读

原标题:李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶 | NeurIPS
关键字:目标,模型,环境,能力,任务
文章来源:量子位
内容字数:0字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型的具身智能决策能力,终于有系统的通用评估基准了。
李飞飞吴佳俊团队新提出的评估框架,对具身智能决策的四项关键子能力来了个全面检查。
这套基准已经被选为了NeurIPS数据和测试集(D&B)专栏Oral论文,同时也被收录进了PyPI,只要一行代码就能快速调用。
该框架名为Embodied Agent Interface(简称EAI),提供了连接不同模块和基准环境的标准接口。
利用这套框架,作者对18款主流模型进行了测试,形成了一篇超百页的论文。
测试结果显示,在已公开的大模型当中,o1-preview的综合成绩位列第一。
李飞飞本人表示,对这项合作研究感到非常兴奋。
有网友评价说,这项成果为大模型具身智能决策塑造了未来。
四项子能力全面评估首先,EAI提供了一种统一的目标表示方法,能够兼容不同类型的目标,并支持复杂约束的描述。
团队认为,现有的具身决策任务通常针对特定领域设计目标,缺乏一致性和通用性。
例如,BEHAVIOR和VirtualHome都是具身智能体的评测基准和模拟环境,用于研究智能体在复杂环境中完成任务的能力。
但二


原文链接:李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶 | NeurIPS

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...