「科学推理」中文基准测评(SuperCLUE-Science)方案发布

3 大学科、覆盖 16 个学科子域

「科学推理」中文基准测评(SuperCLUE-Science)方案发布

原标题:「科学推理」中文基准测评(SuperCLUE-Science)方案发布
文章来源:HyperAI超神经
内容字数:8027字

SuperCLUE-Science:中文科学推理基准测评

随着人工智能技术的飞速发展,大语言模型在高难度科学题目上的推理能力日益受到关注。OpenAI新模型o1在GPQA-Diamond基准测试中展现了惊人的科学推理能力,甚至达到了人类博士级别。为了更有效地评估国内外大模型的科学推理能力,特别是涌现出的众多具备卓越能力的中文大模型,我们推出了SuperCLUE-Science中文科学推理基准测评。

1. SuperCLUE-Science 简介

SuperCLUE-Science 基准测评专注于评估中文大模型在研究生级别科学题目上的表现,为模型开发提供更精准的参考。排行榜地址:www.SuperCLUEai.com (具体测评体系以正式发布的测评报告为准)。

2. SuperCLUE-Science 特点

  1. 全面性

    涵盖物理、化学、生物三大学科的多个二级子领域,确保对中文大模型科学推理能力的全面评估。

  2. 客观性

    采用精心设计的问题-答案对,确保题目的客观性和有解性,重点评估答案的准确性。

  3. 挑战性

    题目难度达到研究生级别,涵盖知识点广度大,推理深度高,对模型提出严峻挑战。

3. 测评任务与示例

测评涵盖物理、化学、生物三大学科的多个二级子领域,例如:

  1. 物理学

    • 量子力学
    • 高能粒子物理
    • 通用物理
    • 天体物理学
    • 电磁学与光子学
    • 相对论力学
    • 统计力学
    • 凝聚态物理
    • 光学与声学

    示例 (量子力学): (此处应插入具体的量子力学示例题)

  2. 化学

    • 有机化学
    • 通用化学
    • 无机化学
    • 分析化学
    • 物理化学

    示例 (有机化学): (此处应插入具体的物理化学示例题)

  3. 生物学

    • 分子生物学
    • 遗传学

    示例 (遗传学): (此处应插入具体的遗传学示例题)

4. 测评方法与评估

  1. 评分方法

    参考SuperCLUE-CoT「链式推理」测评基准的评分方式,针对每个维度(解题过程和最终答案)进行评估,并提供详细反馈。

  2. 测评集构建

    流程:搜集整理研究生级别科学知识 → 撰写中文科学推理题 → 测试 → 修改完善题库。

  3. 评分标准

    评估过程分三个阶段:准备题库、分析解答、打分。采用定量评分,并引入自动化评分系统,确保评估的客观性和效率。评估标准涵盖“最终答案”的准确性和“解题过程”的严谨性。

  4. 评估示例

    文中已提供遗传学和有机化学的评估案例,展示了不同模型的得分和反馈意见。(此处应插入具体的评估示例,包括题目、参、模型答案、评分结果和反馈)

5. 测评邀请

  1. 报名时间:1月2日开始
  2. 模型确认:1月10日
  3. 测评执行:1月10日-15日
  4. 结果发布:1月16日

6. 测评流程

  1. 邮件申请 (标题:SuperCLUE-Science中文科学推理测评申请,发送至contact@superclue.ai,请使用单位邮箱)
  2. 意向沟通
  3. 参测确认与协议
  4. 提供模型API及文档
  5. 获得测评报告

邮件内容需包含:单位信息、大模型简介、联系人及部门、联系方式。


联系作者

文章来源:HyperAI超神经
作者微信:
作者简介:解构技术先进性与普适性,报道更前沿的 AIforScience 案例

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...