最高138.7分！国产大模型「考研数学」成绩单出炉，哪家AI能上岸？

AIGC动态2年前 (2025)发布人工智能学家

原标题：最高138.7分！国产大模型「考研数学」成绩单出炉，哪家AI能上岸？
文章来源：人工智能学家
内容字数：9531字

人工智能模型在2025考研数学考试中的表现

本文概述了清华大学人工智能研究院基础模型研究中心对13个国内外AI模型（包括基础模型和深度推理模型）进行的2025年考研数学（一、二、三）考试评测结果，并分析了不同模型间的性能差异以及深度推理模型的进步。

1. 评测结果概览

所有参与评测的AI模型均取得了120分以上的成绩，展现了AI在数学推理领域的显著进步。其中，OpenAI的o1模型表现最为优异，平均得分高达141.3分，仅错3.5道题。国内头部模型GLM-zero-preview和QwQ紧随其后，分别取得了138.7分和137.0分，与o1的差距仅为个位数。DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3等模型也表现不俗，分数均超过120分。而2023年排名第一的GPT-4，此次仅获得70.7分，排名垫底，这突显了AI模型在数学推理能力方面的一年内取得的巨大飞跃。

2. 国内外模型差距缩小

尽管OpenAI的o1模型在深度推理方面仍领先于所有国产模型，但国内头部模型正在迅速缩小这一差距。智谱的GLM-zero-preview和阿里的QwQ在本次测试中表现出色，证明了国产模型在深度推理能力上的显著提升。

3. 基础模型与深度推理模型对比

评测团队对基础模型和其对应的深度推理模型进行了对比分析，结果显示OpenAI o1相较于GPT-4o的提升幅度最为显著，达到57.3分；阿里Qwen和智谱GLM的提升幅度也十分可观，分别为47.0分和34.3分。深度求索和月之暗面的模型提升幅度相对较小，这主要是因为其基础模型本身分数已经较高。

以DeepSeek-v3作为基准模型进行对比，智谱和阿里在深度推理模型性能提升方面表现突出，分数分别提升了18.3分和16.7分，与OpenAI的提升幅度(21.0分)接近。

4. 评测方法

为了保证评测的公正性和准确性，评测团队统一采用各模型厂商的网页端进行测试，每道题均在的对话窗口中进行，避免上下文信息干扰。为降低模型输出不稳定性带来的影响，同一模型三次测试中至少两次回答正确才算作正确答案。

5. 结论

本次评测结果表明，AI模型在数学推理能力方面取得了显著进展，国内外模型间的差距正在缩小。虽然OpenAI的o1模型目前仍处于领先地位，但国内头部模型的快速发展值得关注，未来有望在这一领域取得更大突破。

联系作者

文章来源：人工智能学家
作者微信：
作者简介：致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文

# AIGC动态 # 1387分大模型 # AI考研能力评测 # 国产大模型考试成绩 # 大模型学术能力评估 # 大模型考研数学

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

最高138.7分！国产大模型「考研数学」成绩单出炉，哪家AI能上岸？

人工智能模型在2025考研数学考试中的表现

1. 评测结果概览

2. 国内外模型差距缩小

3. 基础模型与深度推理模型对比

4. 评测方法

5. 结论

联系作者

神经网络理论研究的物理学思想

计算之物理：灵魂耗能吗？

相关文章

暂无评论