推理模型不是什么都行。
原标题:谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分
文章来源:机器之心
内容字数:4962字
谷歌发布超高难度AI基准测试BBEH:挑战顶级模型
近日,谷歌发布了一个名为BIG-Bench Extra Hard (BBEH) 的超高难度AI基准测试,旨在评估高阶推理能力,并挑战当前最先进的AI模型。BBEH基于之前的BIG-Bench Hard (BBH)构建,但难度大幅提升,每个任务都比BBH更难,使得所有现有模型都有显著的提升空间。
1. BBEH的难度与设计
BBEH通过将BBH中的23个任务替换成难度更高的同类任务而构建,确保了数据集的多样性。每个任务包含200个问题(Disambiguation QA任务除外,有120个问题)。即使是目前最强大的模型o3-mini (high),其得分也仅为44.8%,不及格;其他模型得分大多不超过10%。这表明BBEH成功地设定了极高的难度门槛。
2. 顶级模型的表现与分析
研究团队对多个领先模型进行了测试,结果显示:所有模型在BBEH上都有很大的进步空间。通用模型的最佳性能仅为9.8%的调和平均准确率,而专门的推理模型虽然表现更好,但最佳性能也只有44.8%。部分模型的准确率甚至低于随机水平,原因是模型无法在有效输出token长度内解决问题,导致答案退化。
此外,不同模型擅长不同类型的推理。例如,DeepSeek R1在BoardgameQA上表现突出,o3-mini (high)在时间序列和物体属性方面表现优异,GPT4o在NYCC上表现出色。
3. 模型类型与大小的影响
研究结果表明,推理模型在涉及数学和编码的推理任务上表现显著优于通用模型。然而,在涉及常识、幽默、讽刺和因果关系等复杂现实场景的任务中,推理模型的优势并不明显。
模型大小也对性能有影响。更大的模型在需要多跳推理或应用算法的任务上表现更好,但在涉及幽默、常识和因果推理的任务上优势不明显,SARC Triples任务是个例外。
4. 上下文长度和思考量的影响
BBEH任务的上下文长度和所需思考量各不相同。研究发现,与通用模型相比,推理模型在上下文长度增加或思考量增加时,性能提升更为显著。这表明推理模型在处理更长上下文和更复杂推理问题方面具有更大的潜力。
5. 总结
BBEH基准的发布为AI模型的评估提供了新的挑战,也为未来的研究方向指明了道路。该基准的超高难度促使研究者开发更强大的模型,并更深入地理解AI模型的推理能力及其局限性。BBEH的出现也标志着对AI模型评估方法的持续改进,未来将会有更多更难的基准出现。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台