原标题:最高138.7分!国产大模型「考研数学」成绩单出炉,哪家AI能上岸?
文章来源:人工智能学家
内容字数:9531字
人工智能模型在2025考研数学考试中的表现
本文概述了清华大学人工智能研究院基础模型研究中心对13个国内外AI模型(包括基础模型和深度推理模型)进行的2025年考研数学(一、二、三)考试评测结果,并分析了不同模型间的性能差异以及深度推理模型的进步。
1. 评测结果概览
所有参与评测的AI模型均取得了120分以上的成绩,展现了AI在数学推理领域的显著进步。其中,OpenAI的o1模型表现最为优异,平均得分高达141.3分,仅错3.5道题。国内头部模型GLM-zero-preview和QwQ紧随其后,分别取得了138.7分和137.0分,与o1的差距仅为个位数。DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3等模型也表现不俗,分数均超过120分。而2023年排名第一的GPT-4,此次仅获得70.7分,排名垫底,这突显了AI模型在数学推理能力方面的一年内取得的巨大飞跃。
2. 国内外模型差距缩小
尽管OpenAI的o1模型在深度推理方面仍领先于所有国产模型,但国内头部模型正在迅速缩小这一差距。智谱的GLM-zero-preview和阿里的QwQ在本次测试中表现出色,证明了国产模型在深度推理能力上的显著提升。
3. 基础模型与深度推理模型对比
评测团队对基础模型和其对应的深度推理模型进行了对比分析,结果显示OpenAI o1相较于GPT-4o的提升幅度最为显著,达到57.3分;阿里Qwen和智谱GLM的提升幅度也十分可观,分别为47.0分和34.3分。深度求索和月之暗面的模型提升幅度相对较小,这主要是因为其基础模型本身分数已经较高。
以DeepSeek-v3作为基准模型进行对比,智谱和阿里在深度推理模型性能提升方面表现突出,分数分别提升了18.3分和16.7分,与OpenAI的提升幅度(21.0分)接近。
4. 评测方法
为了保证评测的公正性和准确性,评测团队统一采用各模型厂商的网页端进行测试,每道题均在的对话窗口中进行,避免上下文信息干扰。为降低模型输出不稳定性带来的影响,同一模型三次测试中至少两次回答正确才算作正确答案。
5. 结论
本次评测结果表明,AI模型在数学推理能力方面取得了显著进展,国内外模型间的差距正在缩小。虽然OpenAI的o1模型目前仍处于领先地位,但国内头部模型的快速发展值得关注,未来有望在这一领域取得更大突破。
联系作者
文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构