陶哲轩和Karpathy推荐的数学测试，让全体LLM的数学几乎得0分：解决率2%

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：陶哲轩和Karpathy推荐的数学测试，让全体LLM的数学几乎得0分：解决率2%
关键字：数学,基准,模型,问题,小鹿
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 小鹿最近，出现了一个数学基准集，让大模型们的数学集体翻车，正确率还不到2%。
就是这家非营利研究机构Epoch AI，它集合了世界最顶尖的60多位数学家（包括国际数学奥林匹克（IMO）问题编写者和菲尔兹奖得主）发布了FrontierMath，专治各种LLM不服的全新的数学基准测试。
FrontierMath包含数百个原创数学问题，涵盖了数学大多数的分支方向，从计算密集型的数论，到抽象的代数几何和范畴论问题。
大模型动不动在现在的数学benchmark就是接近100%的正确率，好像真的已经统计数学界了，FrontierMath的出现，就是要考考这些大语言模型到底多厉害。
结果，大语言模型全体暴露，正确率竟然不到2%，这与GSM-8K和MATH等其他流行的数学基准测试形成鲜明对比，在那里这些行业最模型现在实现了超过90%的准确率。。。
基准地址：https://epochai.org/frontiermath
题目是不是太难了？这个非常厉害的基准FrontierMath的设定规则是这样的：
所有问题都是新的且未发表的，以防止数据污染，而且要经过专业数学家的同行评