陶哲轩和Karpathy推荐的数学测试,让全体LLM的数学几乎得0分:解决率2%

陶哲轩和Karpathy推荐的数学测试,让全体LLM的数学几乎得0分:解决率2%

AIGC动态欢迎阅读

原标题:陶哲轩和Karpathy推荐的数学测试,让全体LLM的数学几乎得0分:解决率2%
关键字:数学,基准,模型,问题,小鹿
文章来源:夕小瑶科技说
内容字数:0字

内容摘要:


夕小瑶科技说 原创作者 | 小鹿最近,出现了一个数学基准集,让大模型们的数学集体翻车,正确率还不到2%。
就是这家非营利研究机构Epoch AI,它集合了世界最顶尖的60多位数学家(包括国际数学奥林匹克(IMO)问题编写者和菲尔兹奖得主)发布了FrontierMath,专治各种LLM不服的全新的数学基准测试。
FrontierMath包含数百个原创数学问题,涵盖了数学大多数的分支方向,从计算密集型的数论,到抽象的代数几何和范畴论问题。
大模型动不动在现在的数学benchmark就是接近100%的正确率,好像真的已经统计数学界了,FrontierMath的出现,就是要考考这些大语言模型到底多厉害。
结果,大语言模型全体暴露,正确率竟然不到2%,这与GSM-8K和MATH等其他流行的数学基准测试形成鲜明对比,在那里这些行业最模型现在实现了超过90%的准确率。。。
基准地址:https://epochai.org/frontiermath
题目是不是太难了?这个非常厉害的基准FrontierMath的设定规则是这样的:
所有问题都是新的且未发表的,以防止数据污染,而且要经过专业数学家的同行评


原文链接:陶哲轩和Karpathy推荐的数学测试,让全体LLM的数学几乎得0分:解决率2%

联系作者

文章来源:夕小瑶科技说
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...