AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

AIGC动态欢迎阅读

原标题:AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%
关键字:报告,知识产权,人工智能,华为,解读
文章来源:人工智能学家
内容字数:0字

内容摘要:


来源:腾讯网|AI寒武纪
大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!🤡
看看Epoch AI是怎么做的FrontierMath是一个用于评估人工智能高级数学推理能力的基准测试。Epoch AI与60多位顶尖数学家合作,创建了数百道原创的、极具挑战性的数学问题,FrontierMath涵盖了现代数学的大多数主要分支——从数论中计算密集型问题到代数几何和范畴论中的抽象问题,目标是捕捉当代数学的概貌,即使是经验丰富的数学专家,也得绞尽脑汁,花费数小时甚至数天才能解出来
FrontierMath具有三个关键的设计原则:1)所有问题都是新的且未发表的,以防止数据污染;2)解决方案是自动可验证的,从而实现高效的评估;3)问题是“防猜测”的,在没有正确推理的情况下解决的可能性很低
评估结果评估了六个领先的模型,包括o1 ,Claude


原文链接:AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

联系作者

文章来源:人工智能学家
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...