AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

推理大模型有了比「人类的最后考试」更苛刻的评估基准。

AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

原标题:AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零
文章来源:机器之心
内容字数:3298字

Scale AI等推出超高难度AI推理基准ENIGMAEVAL

1. **新基准挑战大模型推理能力:** Scale AI、Center for AI Safety和MIT的研究者联合推出了一个名为ENIGMAEVAL的全新基准测试,旨在评估大语言模型(LLM)在高难度多模态推理问题上的能力。该基准比此前备受关注的“人类的最后考试”(HLE)更加苛刻,其谜题难度远超现有模型。

2. **ENIGMAEVAL基准的特点:** ENIGMAEVAL包含1184道谜题,这些谜题源自解谜寻宝竞赛,涵盖文字游戏、数学、密码学、图像分析等多个领域。谜题分为普通难度(Normal)和困难难度(Hard)两类,每个谜题通常需要经验丰富的人花费数小时甚至数天才能解决。基准提供原始PDF图像和结构化文本-图像两种格式,分别用于测试模型的端到端能力和多模态推理能力。

3. **SOTA模型表现不佳:** 研究者在ENIGMAEVAL上测试了包括OpenAI o1在内的多个最先进的LLM。结果显示,即使是领先的模型,在普通难度谜题上的准确率也仅为7%左右,在困难难度谜题上的准确率则为0%。这表明当前的LLM在复杂推理任务方面仍然存在巨大差距,远不及人类解谜者。

4. **模型性能下降的原因分析:** 研究发现,从原始PDF到结构化文本的转换,模型性能可能会急剧下降。这并非由于模型对复杂文档处理能力不足,而是因为模型本身的推理能力限制。

5. **基准的意义:** ENIGMAEVAL与HLE一起,构成了一个全新的LLM基准体系,通过极具挑战性的任务,揭示了当前大语言模型的局限性,为未来模型的改进提供了方向。该基准测试强调了AI在真正理解世界方面还有很长的路要走。

6. **未来展望:** 研究者未来将继续完善ENIGMAEVAL基准,并期待更多研究者参与其中,共同推动LLM的推理能力发展。DeepSeek R1并未参与本次测试,其表现也值得期待。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...