史上最难大模型测试集，千名专家铸成！没有模型得分超过10%，但DeepSeek-R1超o1

机器+人工三轮筛选，3000余道题目入围

原标题：史上最难大模型测试集，千名专家铸成！没有模型得分超过10%，但DeepSeek-R1超o1
文章来源：量子位
内容字数：2809字

史上最难大模型测试集：人类最后的考试

近日，一个名为“人类最后的考试”（Humanity’s Last Exam，简称HLE）的超难大模型测试集发布，其难度之高令人咋舌。该测试集由AI安全中心和Scale AI发起，汇集了全球500多家机构1000多名学者的智慧，最终入围3000多道研究生及以上难度的题目，涵盖数理化、生物医药、工程和社会科学等多个学科。

测试集难度空前
HLE测试集的题目难度远超现有标准，甚至连强大的o1模型也仅取得9.1%的准确率。该测试集的题目必须达到研究生难度，且不能通过搜索引擎检索到答案。题目类型多样，包括需要视觉能力解读上古文字的题目，需要结合视觉信息和文本理解有机化学结构的题目，以及需要高阶推理能力的数学和计算机科学题目。即使是领域内专家，也面临巨大挑战。
严苛的题目筛选过程
HLE测试集的筛选过程极其严格，经历了大模型和人工的双重审查。首先，题目需经大模型测试，只有大模型答错非选择题或选择题平均准确率低于随机猜测的题目才能通过初筛。随后，1.3万道题目经过两轮人工审核，最终仅3000多道题目入围。每道入选题目，命题人将获得500-5000美元的奖励。
不同模型的表现
在HLE测试集上，o1模型的准确率仅为9.1%，DeepSeek-R1在纯文本子集上表现最佳，而Gemini 1.5 Pro在非推理模型中表现最好。GPT-4则排名垫底，这凸显了当前大模型在处理复杂、多模态任务方面的不足。
测试集的意义
HLE测试集的发布为评估大模型能力提供了新的标杆，也为推动大模型技术发展提供了宝贵的数据资源。其高难度和严谨的筛选过程，能够更有效地识别大模型的缺陷和局限性，从而促进AI安全研究和技术的进步。该测试集的出现，也为业界提供了一个更客观、更全面的衡量大模型能力的标准。

HLE测试集的项目主页：https://lastexam.ai/

数据集链接：https://huggingface.co/datasets/cais/hle

论文链接：https://lastexam.ai/paper