国产推理大模型决战2025考研数学，看看谁第一个上岸？

AIGC动态1年前 (2025)发布机器之心

大模型考研数学成绩大PK。

原标题：国产推理大模型决战2025考研数学，看看谁第一个上岸？
文章来源：机器之心
内容字数：5098字

2025考研数学真题测评：深度推理大模型能力拼

机器之心发布的一篇测评文章，对国内外多个深度推理大模型在2025年考研数学（一、二、三）试题上的表现进行了评估，结果显示深度推理模型在数学推理能力上取得了显著进步。

1. 测试背景与模型

文章指出，大语言模型在数学推理方面一直是短板，直到深度推理模型的出现才有所改善。此次测评选取了13个模型，包括OpenAI的GPT-o1、智谱的GLM-Zero-Preview、阿里的QwQ等深度推理模型，以及对应的基础模型，例如GPT-4。测评采用统一的网页端进行测试，每题作答，三次测试中至少两次正确才算正确。

2. 测试结果与排名

测试结果显示，OpenAI的GPT-o1以平均分领先，成为唯一一个超过140分的模型。智谱的GLM-Zero-Preview以138.7分位居国产大模型第一，紧随其后的是阿里的QwQ。其他深度推理模型也普遍达到120分以上，而基础模型GPT-4仅获得70.7分，排名垫底。这表明深度推理模型在数学推理能力上有了显著提升。

3. 单科分析与错题分布

文章对各科错题进行了分析。在数学一中，部分模型在涉及曲面积分和特征向量求解的题目上出错；数学二中，多个模型在第3、5、7题出错；数学三中，第14、15、16、19题成为出错重灾区。GPT-o1的错误率最低，且其出错的题目其他模型也普遍出错，体现了其领先地位。

4. 深度思考模型与基础模型对比

文章对比了深度推理模型与其对应基础模型的得分差异。OpenAI的GPT-o1相较于GPT-4o提升最为显著（57.3分），其次是阿里的Qwen模型和智谱的GLM模型。深度求索和月之暗面的提升相对较小，这与其基础模型本身分数较高有关。以DeepSeek-v3为基准，OpenAI、智谱、阿里在深度思考模型上的性能提升最为明显。