人类最后一次考试，AI惨败正确率＜10%！数百顶级专家联手出题，DeepSeek竟是王者

AIGC动态1年前 (2025)发布新智元

原标题：人类最后一次考试，AI惨败正确率＜10%！数百顶级专家联手出题，DeepSeek竟是王者
文章来源：新智元
内容字数：4344字

AI模型的终极挑战：人类最后一次考试

Scale AI和Center for AI Safety (CAIS) 联合发布了名为“人类最后一次考试”（Humanity’s Last Exam，简称 HLE）的全新AI基准测试，旨在评估当前最先进的大型语言模型（LLM）的真实能力。这项测试包含3000道涵盖100多个学科的难题，由近1000名来自全球各地的专家精心设计，旨在突破现有基准测试的局限性。

测试设计与流程
HLE 采用精确匹配题和选择题两种题型，其中10% 的题目包含图像和图表等多模态内容。为了确保题目的高质量和难度，项目组设立了50万美元的奖金池，吸引了超过70,000道试题的提交，最终经过严格筛选和专家评审，选取了3000道题目用于公开测试。此外，还保留了一部分私有测试集，用于检测模型是否存在过拟合或作弊行为。
令人意外的结果
参与测试的7个顶尖LLM模型（包括GPT-40、Grok 2、Claude 3.5 Sonnect等）的准确率均低于10%，并且表现出过度自信的倾向。研究者发现，具备推理能力的模型需要消耗更多的计算资源和时间才能完成测试。
基准测试的意义与局限性
HLE 的推出旨在应对现有基准测试的不足，例如一些热门基准测试的难度过低，甚至存在“漏题”问题。虽然 HLE 的高难度和广泛的学科覆盖范围，更能有效评估 LLM 的能力，但它仍然只测试结构化的学术问题，无法评估模型的自主研究能力或创造性问题解决能力。因此，HLE 的高分并不能等同于模型具备通用人工智能（AGI）。
未来展望
尽管目前 LLM 在 HLE 中表现不佳，但考虑到AI技术快速发展的现状，研究者预测，在2025年底之前，模型有可能在 HLE 上达到超过50% 的准确率。HLE 的出现为AI领域提供了新的评估标准，也为未来的AI发展方向提供了新的思考方向。这标志着AI发展进入一个新的阶段，模型需要在更复杂、更接近人类认知能力的任务中接受挑战。

总而言之，“人类最后一次考试”并非AI评估的终点，而是对现有技术水平的一次严峻考验，也为未来AI发展指明了方向，推动着AI模型朝着更强大、更可靠的方向不断进化。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

# AIGC动态 # AI正确率低于10%# AI考试失败 # DeepSeek # 人工智能行业评测 # 顶级专家出题

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

人类最后一次考试，AI惨败正确率＜10%！数百顶级专家联手出题，DeepSeek竟是王者

AI模型的终极挑战：人类最后一次考试

测试设计与流程

令人意外的结果

基准测试的意义与局限性

未来展望

联系作者

CS本科就业寒冬来袭！名校24届就业率被曝不足50%，企业宁用AI不招应届生

AI走的是死路？专家剖析致命缺陷，不具备大规模应用前提

相关文章

暂无评论