原标题:o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
文章来源:新智元
内容字数:3057字
AIME 2025 I 数学竞赛:大模型成绩引发的质疑
近日,AIME 2025 I 数学竞赛的大模型参赛结果引发热议。o3-mini以78%的准确率夺冠,DeepSeek R1则以65%的准确率位居第四。然而,威斯康星大学麦迪逊分校教授Dimitris Papailiopoulos却对结果提出质疑,他发现一些参数量仅为1.5B的小模型也能取得50%左右的准确率,这引发了关于数据集污染和模型泛化能力的讨论。
令人意外的高分
Papailiopoulos教授对小模型的意外高分感到震惊。他认为,如果题目完全是新题,这些小模型几乎不可能取得如此高的分数。一个连三位数乘法都难以计算的1.5B参数模型,却能解答奥数题,这显得异常不合理。
数据集污染的证据
教授通过OpenAI Deep Research搜索发现,AIME 2025 I竞赛中的部分题目,与Quora、math.stackexchange以及2023年佛罗里达在线数学公开赛中的题目高度相似甚至完全相同。这强烈暗示了数据集污染的可能性,模型很可能并非真正理解并解决了问题,而是记住了答案。
MathArena平台的公平性
MathArena平台旨在评估大模型解决未见数学问题的推理和泛化能力。它通过标准化评估和多次重复测试来保证结果的公平性,并公开排行榜和详细数据。然而,此次暴露了即使是精心设计的平台,也难以完全避免数据集污染的风险。
泛化能力VS记忆能力
此次突显了LLM“泛化能力VS记忆能力”的争议。模型究竟是真正理解并解决了问题,还是仅仅记住了答案?这成为一个值得深入探讨的问题。Papailiopoulos教授推测,强化学习优化策略GRPO可能在提升模型记忆的同时,也意外地提高了其数学技能。
数据净化:新的Scaling Law?
引发网友热议,不少人认为数据净化才是提升模型能力的关键,甚至有人将其称为“新的Scaling Law”。 这反映了数据质量对模型性能至关重要的现实。如何有效地净化数据,避免数据集污染,成为未来研究的重点。
总而言之,AIME 2025 I竞赛的结果引发了对大模型能力和数据集污染的深刻反思。 这不仅关系到对模型性能的准确评估,更关乎对人工智能未来发展方向的思考。 数据净化和模型泛化能力的提升,将是未来研究的重点方向。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。