大模型考研数学成绩大PK。
原标题:国产推理大模型决战2025考研数学,看看谁第一个上岸?
文章来源:机器之心
内容字数:5098字
2025考研数学真题测评:深度推理大模型能力拼
机器之心发布的一篇测评文章,对国内外多个深度推理大模型在2025年考研数学(一、二、三)试题上的表现进行了评估,结果显示深度推理模型在数学推理能力上取得了显著进步。
1. 测试背景与模型
文章指出,大语言模型在数学推理方面一直是短板,直到深度推理模型的出现才有所改善。此次测评选取了13个模型,包括OpenAI的GPT-o1、智谱的GLM-Zero-Preview、阿里的QwQ等深度推理模型,以及对应的基础模型,例如GPT-4。测评采用统一的网页端进行测试,每题作答,三次测试中至少两次正确才算正确。
2. 测试结果与排名
测试结果显示,OpenAI的GPT-o1以平均分领先,成为唯一一个超过140分的模型。智谱的GLM-Zero-Preview以138.7分位居国产大模型第一,紧随其后的是阿里的QwQ。其他深度推理模型也普遍达到120分以上,而基础模型GPT-4仅获得70.7分,排名垫底。这表明深度推理模型在数学推理能力上有了显著提升。
3. 单科分析与错题分布
文章对各科错题进行了分析。在数学一中,部分模型在涉及曲面积分和特征向量求解的题目上出错;数学二中,多个模型在第3、5、7题出错;数学三中,第14、15、16、19题成为出错重灾区。GPT-o1的错误率最低,且其出错的题目其他模型也普遍出错,体现了其领先地位。
4. 深度思考模型与基础模型对比
文章对比了深度推理模型与其对应基础模型的得分差异。OpenAI的GPT-o1相较于GPT-4o提升最为显著(57.3分),其次是阿里的Qwen模型和智谱的GLM模型。深度求索和月之暗面的提升相对较小,这与其基础模型本身分数较高有关。以DeepSeek-v3为基准,OpenAI、智谱、阿里在深度思考模型上的性能提升最为明显。
5. 结论
虽然OpenAI的GPT-o1仍然处于领先地位,但国产深度推理大模型正在快速追赶,智谱GLM-Zero-Preview和阿里QwQ的成绩体现了这一趋势。此次评测结果展现了深度推理模型在数学推理能力上的显著进步,也为大模型未来的发展方向提供了参考。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台