AIGC动态欢迎阅读
原标题:最强 OpenAI o1 逻辑推理正确率仅 50%!清华、智谱推出「大模型逻辑推理新基准」
关键字:模型,规则,步骤,答案,难度
文章来源:人工智能学家
内容字数:0字
内容摘要:
9.11 和 9.9 哪个大?
这一连人类幼儿园儿童都能回答的问题,曾经(至今)难倒了众多大语言模型(LLM)。然而,要想达到通用人工智能(AGI)的水平,LLM 不仅要完成“比大小”这种简单的逻辑推理,还需要完成难度更高的推理,比如“对复杂规则的理解与执行以及多步骤规划”,这是 LLM 智能体(agent)和决策系统的核心能力。
因此,如何有效评估 LLM 作为基于规则的执行者和规划者角色,至关重要。但是,目前学界和业界少有这方面的研究。
来自清华大学和智谱的研究团队推出了一项新的基准测试——LogicGame,旨在全面评估 LLM 在规则理解、执行和规划方面的能力。先看评测结果:图|LogicGame 的评测结果和样例展示。上图为各种模型在执行和规划类别中的表现;下图(左、右)分别为两个执行和规划类别案例研究。
除了看到 o1-preview、o-mini 的遥遥领先,我们也看到超过一半的模型得分不到 10%,如上图红域所示。
这一评测结果揭示了一个不容忽视的事实:大多数 LLM 在基于规则的逻辑推理上都存在着明显的缺陷。
相关研究论文以“LogicGame: Benchmar
原文链接:最强 OpenAI o1 逻辑推理正确率仅 50%!清华、智谱推出「大模型逻辑推理新基准」
联系作者
文章来源:人工智能学家
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...