陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年
关键字：数学,模型,基准,测试,问题
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：Hjh
【新智元导读】Epoch AI推出数学基准FrontierMath，目前前沿模型测试成功率均低于2%！OpenAI研究科学家Noam Brown说道：「我喜欢看到新评估的前沿模型通过率如此之低。这种感觉就像一觉醒来，外面是一片崭新的雪地，完全没有人迹。」或许，FrontierMath测试成功率突破的那一天，会是AI发展过程中一个全新的里程碑。数学为评估复杂推理提供了一个独特而合适的测试平台。它需要一定的创造力和精确的逻辑链条——通常涉及复杂的证明，这些证明必须缜密地筹划和执行。同时，数学还允许对结果进行客观验证。
在铺天盖地的宣传中，LLM看起来已经攻破了数学大关。但果真如此吗？
不久前，来自苹果的研究院团队证明，就算是在数学这些基础科学方面最先进的o1模型，其卓越的表现也是来源于对特定数据集针对性的持续优化。
所以为了更好的检验模型对于数学问题的理解与解决能力，我们需要一个更加全面而行之有效的数学测试基准。
近日，Epoch AI联合六十余位全世界的数学家，其中包括教授、IMO命题人、菲尔兹奖获得者，共同推出了全新的数学基准FrontierMath。其包括数

原文链接：陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年