o3-mini-high 可达13%,加上 Deep Research 还能翻倍。
原标题:DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页
文章来源:机器之心
内容字数:5160字
AI新基准:人类的最后考试(HLE)
随着AI大模型能力的飞速发展,现有的评估基准已捉襟见肘。为了更精准地衡量前沿大型语言模型(LLM)的能力,AI安全中心(Center for AI Safety)与Scale AI合作,推出一个名为“人类的最后考试”(Humanity’s Last Exam,简称HLE)的新基准。
1. HLE 的设计目标与构成
HLE旨在成为一个涵盖广泛学科的终极封闭式学术基准,测试模型在人类知识前沿的理解和推理能力。目前包含3000多个高难度问题,涉及一百多个学科,包括数学、人文科学和自然科学。问题主要为多项选择题和简单问答题,答案明确且易于验证,但无法通过互联网快速搜索得到。
2. 数据集的收集与审核
HLE的数据集由来自全球近1000名学科专家贡献,他们主要来自教授、研究人员和研究生。为了保证问题的质量,团队制定了严格的提交标准,包括原创性、明确性、可解性以及不可搜索性等。此外,还设立了50万美元的奖金池激励高质量投稿。收集完成后,团队还进行了多轮审核,确保问题的准确性和完整性。
3. SOTA模型在HLE上的表现
目前,包括GPT-4o和DeepSeek-R1在内的SOTA模型在HLE上的准确率均未超过10%。即使是经过改进的o3-mini模型,准确率也仅达到13%左右(使用Deep Research可提升至26.6%)。这表明HLE的难度极高,目前的LLM在面对这类需要深入专业知识和复杂推理的问题时,能力仍然有限。
4. 模型校准与计算效率
研究团队还评估了模型的校准误差,发现所有模型的校准都很差,经常以高置信度给出错误答案。这表明模型难以识别自身能力边界。此外,研究还发现,具有推理能力的模型需要消耗更多计算资源,未来模型不仅需要提高准确率,还需要提升计算效率。
5. HLE的意义与展望
尽管目前LLM在HLE上的表现不佳,但研究团队预测,随着模型能力的提升,HLE很快就会被攻克。HLE的意义在于它提供了一个严苛的测试平台,能够更精准地衡量LLM在特定领域内的专业知识和推理能力。然而,HLE并非AI的最终基准,它主要关注结构化的学术问题,而非开放式研究或创造性问题。
总而言之,HLE作为一项新的AI基准,为评估LLM能力提供了新的视角,也为未来AI的发展方向提供了重要的参考。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台