工作耗时半年,近百位学界、业界专家参与标注
原标题:DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
文章来源:量子位
内容字数:6044字
字节跳动开源SuperGPQA:大模型评测的“黄冈密卷”
近年来,大模型评测基准逐渐同质化,难以准确评估模型真实能力。针对这一问题,字节跳动豆包大模型团队联合M-A-P开源社区,推出全新评测基准SuperGPQA,旨在更全面、更精准地评估大模型的知识推理能力。这篇文章将总结SuperGPQA的主要特点和贡献。
1. 传统评测基准的局限性
传统的评测基准如MMLU和GPQA存在三大痛点:学科覆盖不全,仅涵盖少量主流学科,缺乏对长尾知识的评估;题目质量存疑,存在数据污染风险,难以反映模型的真实学术水平;评测维度单一,主要停留在知识记忆层面,缺乏对高阶推理能力的考量。顶级模型在这些基准上的高分,并不能真实反映其在复杂场景下的能力。
2. SuperGPQA:更全面、更具挑战性的评测基准
SuperGPQA旨在解决上述问题,其主要特点包括:
全学科覆盖:SuperGPQA覆盖285个研究生级学科,包含26529道专业题目,远超现有基准,实现了前所未有的学科全面性。
难度分布多样:题目难度均衡分布,在工程和科学领域包含大量难题,确保对模型高阶推理能力的有效评估。
语义结构丰富:题目语义结构多样,不同学科的语言特色鲜明,能够更有效地区分不同模型的性能。
题目设计一致:题目长度和选项长度统一,迷惑性和挑战性高,确保评测的公平性和可靠性。
严格的质量控制:SuperGPQA采用专家标注、众包注释和大模型协同验证三重流程,确保题目质量和区分度,避免数据污染。
3. SuperGPQA的实验结果与结论
SuperGPQA对多个主流LLM进行了测试,结果显示:
推理模型表现最佳,DeepSeek-R1以61.82%的准确率登顶,但仍显著低于人类研究生水平。
指令微调显著提升模型性能。
国内模型展现出竞争力,豆包大模型在模型中排名第一,超越GPT-4o。
模型在STEM领域的性能显著优于人文社科领域。
4. SuperGPQA的意义与影响
SuperGPQA的开源,为大模型的评估提供了更全面、更可靠的工具,有助于推动大模型技术的发展。其严格的数据构建过程和全面的学科覆盖,填补了行业空白,为未来大模型评测树立了新的标杆。 这不仅标志着字节跳动在基础科研领域的投入,也展现了其对大模型技术发展的长远规划。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破