人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者

人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者

原标题:人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者
文章来源:新智元
内容字数:4344字

AI模型的终极挑战:人类最后一次考试

Scale AI和Center for AI Safety (CAIS) 联合发布了名为“人类最后一次考试”(Humanity’s Last Exam,简称 HLE)的全新AI基准测试,旨在评估当前最先进的大型语言模型(LLM)的真实能力。这项测试包含3000道涵盖100多个学科的难题,由近1000名来自全球各地的专家精心设计,旨在突破现有基准测试的局限性。

  1. 测试设计与流程

    HLE 采用精确匹配题和选择题两种题型,其中10% 的题目包含图像和图表等多模态内容。为了确保题目的高质量和难度,项目组设立了50万美元的奖金池,吸引了超过70,000道试题的提交,最终经过严格筛选和专家评审,选取了3000道题目用于公开测试。此外,还保留了一部分私有测试集,用于检测模型是否存在过拟合或作弊行为。

  2. 令人意外的结果

    参与测试的7个顶尖LLM模型(包括GPT-40、Grok 2、Claude 3.5 Sonnect等)的准确率均低于10%,并且表现出过度自信的倾向。研究者发现,具备推理能力的模型需要消耗更多的计算资源和时间才能完成测试。

  3. 基准测试的意义与局限性

    HLE 的推出旨在应对现有基准测试的不足,例如一些热门基准测试的难度过低,甚至存在“漏题”问题。虽然 HLE 的高难度和广泛的学科覆盖范围,更能有效评估 LLM 的能力,但它仍然只测试结构化的学术问题,无法评估模型的自主研究能力或创造性问题解决能力。因此,HLE 的高分并不能等同于模型具备通用人工智能(AGI)。

  4. 未来展望

    尽管目前 LLM 在 HLE 中表现不佳,但考虑到AI技术快速发展的现状,研究者预测,在2025年底之前,模型有可能在 HLE 上达到超过50% 的准确率。HLE 的出现为AI领域提供了新的评估标准,也为未来的AI发展方向提供了新的思考方向。这标志着AI发展进入一个新的阶段,模型需要在更复杂、更接近人类认知能力的任务中接受挑战。

总而言之,“人类最后一次考试”并非AI评估的终点,而是对现有技术水平的一次严峻考验,也为未来AI发展指明了方向,推动着AI模型朝着更强大、更可靠的方向不断进化。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...