「科学推理」中文基准测评（SuperCLUE-Science）方案发布

AIGC动态1年前 (2025)发布 HyperAI超神经

3 大学科、覆盖 16 个学科子域

原标题：「科学推理」中文基准测评（SuperCLUE-Science）方案发布
文章来源：HyperAI超神经
内容字数：8027字

SuperCLUE-Science：中文科学推理基准测评

随着人工智能技术的飞速发展，大语言模型在高难度科学题目上的推理能力日益受到关注。OpenAI新模型o1在GPQA-Diamond基准测试中展现了惊人的科学推理能力，甚至达到了人类博士级别。为了更有效地评估国内外大模型的科学推理能力，特别是涌现出的众多具备卓越能力的中文大模型，我们推出了SuperCLUE-Science中文科学推理基准测评。

1. SuperCLUE-Science 简介

SuperCLUE-Science 基准测评专注于评估中文大模型在研究生级别科学题目上的表现，为模型开发提供更精准的参考。排行榜地址：www.SuperCLUEai.com (具体测评体系以正式发布的测评报告为准)。

2. SuperCLUE-Science 特点

全面性
涵盖物理、化学、生物三大学科的多个二级子领域，确保对中文大模型科学推理能力的全面评估。
客观性
采用精心设计的问题-答案对，确保题目的客观性和有解性，重点评估答案的准确性。
挑战性
题目难度达到研究生级别，涵盖知识点广度大，推理深度高，对模型提出严峻挑战。

3. 测评任务与示例

测评涵盖物理、化学、生物三大学科的多个二级子领域，例如：

物理学
- 量子力学
- 高能粒子物理
- 通用物理
- 天体物理学
- 电磁学与光子学
- 相对论力学
- 统计力学
- 凝聚态物理
- 光学与声学
示例 (量子力学)： (此处应插入具体的量子力学示例题)
化学
- 有机化学
- 通用化学
- 无机化学
- 分析化学
- 物理化学
示例 (有机化学)： (此处应插入具体的物理化学示例题)
生物学
- 分子生物学
- 遗传学
示例 (遗传学)： (此处应插入具体的遗传学示例题)

4. 测评方法与评估

评分方法
参考SuperCLUE-CoT「链式推理」测评基准的评分方式，针对每个维度（解题过程和最终答案）进行评估，并提供详细反馈。
测评集构建
流程：搜集整理研究生级别科学知识 → 撰写中文科学推理题 → 测试 → 修改完善题库。
评分标准
评估过程分三个阶段：准备题库、分析解答、打分。采用定量评分，并引入自动化评分系统，确保评估的客观性和效率。评估标准涵盖“最终答案”的准确性和“解题过程”的严谨性。
评估示例
文中已提供遗传学和有机化学的评估案例，展示了不同模型的得分和反馈意见。(此处应插入具体的评估示例，包括题目、参、模型答案、评分结果和反馈)

5. 测评邀请

报名时间：1月2日开始
模型确认：1月10日
测评执行：1月10日-15日
结果发布：1月16日

6. 测评流程

邮件申请 (标题：SuperCLUE-Science中文科学推理测评申请，发送至contact@superclue.ai，请使用单位邮箱)
意向沟通
参测确认与协议
提供模型API及文档
获得测评报告

邮件内容需包含：单位信息、大模型简介、联系人及部门、联系方式。

联系作者

文章来源：HyperAI超神经
作者微信：
作者简介：解构技术先进性与普适性，报道更前沿的 AIforScience 案例

阅读原文

# AIGC动态 # AI科学推理模型 # SuperCLUE基准测评 # 科学推理 # 科学知识图谱 # 长尾关键词

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

「科学推理」中文基准测评（SuperCLUE-Science）方案发布

3 大学科、覆盖 16 个学科子域

SuperCLUE-Science：中文科学推理基准测评

1. SuperCLUE-Science 简介

2. SuperCLUE-Science 特点

全面性

客观性

挑战性

3. 测评任务与示例

物理学

化学

生物学

4. 测评方法与评估

评分方法

测评集构建

评分标准

评估示例

5. 测评邀请

6. 测评流程

联系作者

坚守30年，麻省理工学院瞄定下一代锂电池，用生成式AI实现固态电解质重大突破

为什么越来越多的年轻人，都不用百度搜索了？

相关文章

暂无评论