悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%
关键字：程序,模型,准确率,网格,测试
文章来源：量子位
内容字数：0字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAIGTP-4o挑战悬赏八百万的超难数据集，实现SOTA！
数据集当中包含了各种类型的图形推理题目，被挑战发起者预言“大模型很难完成”。
结果短短一周之内，这一挑战就被一位博主Ryan Greenblatt完成了一半，准确率达50%；而此前的SOTA仅为34%。
针对自己的成果，Ryan发了一个表情包表示：
只要有更多的样本，大模型的能力就能获得提升。
成果发布后，Ryan所在机构CEO Bucket Shlegeris称赞他是世界级的语言模型推理专家，用了很多精致技巧让模型的表现提高到了这样的程度。
要知道，挑战的发起方此前开出了最高50万美元（约360万人民币）、总计110万美元（约798万人民币）的巨额赏金。
但有人预计，有60%的概率在未来一年内就会有人获得奖项，甚至现有的模型加上一些提示技巧就能实现。
这也与Ryan的想法不谋而合，不过Ryan估计的概率更高些，是70%。
然而按照规则，想得奖的话，方法必须是开源的，而Ryan用的是GPT，所以可能与奖金无缘了。
不过，Ryan用到的的方法，还是值得我们了解一下的。
让GPT编写

原文链接：悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%