最强 OpenAI o1 逻辑推理正确率仅 50%！清华、智谱推出「大模型逻辑推理新基准」

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：最强 OpenAI o1 逻辑推理正确率仅 50%！清华、智谱推出「大模型逻辑推理新基准」
关键字：模型,规则,步骤,答案,难度
文章来源：人工智能学家
内容字数：0字

内容摘要：

9.11 和 9.9 哪个大？
这一连人类幼儿园儿童都能回答的问题，曾经（至今）难倒了众多大语言模型（LLM）。然而，要想达到通用人工智能（AGI）的水平，LLM 不仅要完成“比大小”这种简单的逻辑推理，还需要完成难度更高的推理，比如“对复杂规则的理解与执行以及多步骤规划”，这是 LLM 智能体（agent）和决策系统的核心能力。
因此，如何有效评估 LLM 作为基于规则的执行者和规划者角色，至关重要。但是，目前学界和业界少有这方面的研究。
来自清华大学和智谱的研究团队推出了一项新的基准测试——LogicGame，旨在全面评估 LLM 在规则理解、执行和规划方面的能力。先看评测结果：图｜LogicGame 的评测结果和样例展示。上图为各种模型在执行和规划类别中的表现；下图（左、右）分别为两个执行和规划类别案例研究。
除了看到 o1-preview、o-mini 的遥遥领先，我们也看到超过一半的模型得分不到 10%，如上图红域所示。
这一评测结果揭示了一个不容忽视的事实：大多数 LLM 在基于规则的逻辑推理上都存在着明显的缺陷。
相关研究论文以“LogicGame: Benchmar

原文链接：最强 OpenAI o1 逻辑推理正确率仅 50%！清华、智谱推出「大模型逻辑推理新基准」