「科学推理」中文基准测评(SuperCLUE-Science)方案发布
3 大学科、覆盖 16 个学科子域
原标题:「科学推理」中文基准测评(SuperCLUE-Science)方案发布
文章来源:HyperAI超神经
内容字数:8027字
SuperCLUE-Science:中文科学推理基准测评
随着人工智能技术的飞速发展,大语言模型在高难度科学题目上的推理能力日益受到关注。OpenAI新模型o1在GPQA-Diamond基准测试中展现了惊人的科学推理能力,甚至达到了人类博士级别。为了更有效地评估国内外大模型的科学推理能力,特别是涌现出的众多具备卓越能力的中文大模型,我们推出了SuperCLUE-Science中文科学推理基准测评。
1. SuperCLUE-Science 简介
SuperCLUE-Science 基准测评专注于评估中文大模型在研究生级别科学题目上的表现,为模型开发提供更精准的参考。排行榜地址:www.SuperCLUEai.com (具体测评体系以正式发布的测评报告为准)。
2. SuperCLUE-Science 特点
全面性
涵盖物理、化学、生物三大学科的多个二级子领域,确保对中文大模型科学推理能力的全面评估。
客观性
采用精心设计的问题-答案对,确保题目的客观性和有解性,重点评估答案的准确性。
挑战性
题目难度达到研究生级别,涵盖知识点广度大,推理深度高,对模型提出严峻挑战。
3. 测评任务与示例
测评涵盖物理、化学、生物三大学科的多个二级子领域,例如:
物理学
- 量子力学
- 高能粒子物理
- 通用物理
- 天体物理学
- 电磁学与光子学
- 相对论力学
- 统计力学
- 凝聚态物理
- 光学与声学
示例 (量子力学): (此处应插入具体的量子力学示例题)
化学
- 有机化学
- 通用化学
- 无机化学
- 分析化学
- 物理化学
示例 (有机化学): (此处应插入具体的物理化学示例题)
生物学
- 分子生物学
- 遗传学
示例 (遗传学): (此处应插入具体的遗传学示例题)
4. 测评方法与评估
评分方法
参考SuperCLUE-CoT「链式推理」测评基准的评分方式,针对每个维度(解题过程和最终答案)进行评估,并提供详细反馈。
测评集构建
流程:搜集整理研究生级别科学知识 → 撰写中文科学推理题 → 测试 → 修改完善题库。
评分标准
评估过程分三个阶段:准备题库、分析解答、打分。采用定量评分,并引入自动化评分系统,确保评估的客观性和效率。评估标准涵盖“最终答案”的准确性和“解题过程”的严谨性。
评估示例
文中已提供遗传学和有机化学的评估案例,展示了不同模型的得分和反馈意见。(此处应插入具体的评估示例,包括题目、参、模型答案、评分结果和反馈)
5. 测评邀请
- 报名时间:1月2日开始
- 模型确认:1月10日
- 测评执行:1月10日-15日
- 结果发布:1月16日
6. 测评流程
- 邮件申请 (标题:SuperCLUE-Science中文科学推理测评申请,发送至contact@superclue.ai,请使用单位邮箱)
- 意向沟通
- 参测确认与协议
- 提供模型API及文档
- 获得测评报告
邮件内容需包含:单位信息、大模型简介、联系人及部门、联系方式。
联系作者
文章来源:HyperAI超神经
作者微信:
作者简介:解构技术先进性与普适性,报道更前沿的 AIforScience 案例