AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%
关键字：报告,知识产权,人工智能,华为,解读
文章来源：人工智能学家
内容字数：0字

内容摘要：

来源：腾讯网|AI寒武纪
大型语言模型（LLM）最近在各种数学benchmark上疯狂刷分，动辄90%以上的正确率，搞得好像要统治数学界一样。然而，Epoch AI看不下去了，联手60多位顶尖数学家，憋了个大招——FrontierMath，一个专治LLM各种不服的全新数学推理测试！结果惨不忍睹，LLM集体“翻车”，正确率竟然不到2%！?
看看Epoch AI是怎么做的FrontierMath是一个用于评估人工智能高级数学推理能力的基准测试。Epoch AI与60多位顶尖数学家合作，创建了数百道原创的、极具挑战性的数学问题，FrontierMath涵盖了现代数学的大多数主要分支——从数论中计算密集型问题到代数几何和范畴论中的抽象问题，目标是捕捉当代数学的概貌，即使是经验丰富的数学专家，也得绞尽脑汁，花费数小时甚至数天才能解出来
FrontierMath具有三个关键的设计原则：1）所有问题都是新的且未发表的，以防止数据污染；2）解决方案是自动可验证的，从而实现高效的评估；3）问题是“防猜测”的，在没有正确推理的情况下解决的可能性很低
评估结果评估了六个领先的模型，包括o1 ,Claude

原文链接：AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%