原标题:斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库
文章来源:人工智能学家
内容字数:10392字
斯坦福大学新研究揭示大模型数学推理能力的局限性
1. **引言:** 斯坦福大学最新研究表明,大型语言模型(LLM)的数学推理能力存在严重缺陷。即使是表现最好的模型,仅仅是改变数学题目的变量名称或取值范围,准确率就会大幅下降,这表明模型很可能只是依赖记忆而非真正的理解和推理。
2. **Putnam-AXIOM测试集:** 研究团队为此创建了Putnam-AXIOM基准测试集,该测试集基于1985-2023年William Lowell Putnam数学竞赛的题目。为了避免模型“死记硬背”,该测试集包含了原始题目以及通过改变变量名称和常数生成的变异题目,这些变异题目在互联网上找不到现成答案。
3. **实验结果令人失望:** 实验结果显示,包括OpenAI的o1-preview、GPT-4o、Claude、DeepSeek和Qwen等多个顶级LLM在原始数据集上的准确率普遍较低,多数低于10%。更令人担忧的是,在变异数据集上,所有模型的准确率都显著下降。例如,o1-preview在原始数据集上的准确率为50%,但在变异数据集上降至33.96%。这说明这些模型的“高分”很大程度上依赖于对训练数据的记忆。
4. **模型错误分析:** 研究人员分析了部分模型的错误答案,发现这些模型在逻辑推理和数学严谨性方面存在明显缺陷,例如缺乏充分的证明、逻辑跳跃以及不连贯的推理等。
5. **Putnam-AXIOM基准的意义:** Putnam-AXIOM基准的提出有效解决了现有基准测试集饱和的问题,为评估LLM的数学推理能力提供了一个更具挑战性和更可靠的方法。该基准实现了完全自动化评估,并提供了丰富多样的变体数据集,为未来研究LLM的推理能力提供了宝贵的资源。
6. **未来研究方向:** 尽管目前变体数据集的生成过程复杂且耗时,但研究团队表示,未来优化变体生成方法将有助于加速对人工推理的研究,推动LLM在数学推理能力上的进一步提升。
7. **总结:** 斯坦福大学的这项研究揭示了LLM在数学推理能力上的局限性,突出了模型对训练数据的过度依赖。Putnam-AXIOM基准的提出为更准确地评估LLM的数学推理能力提供了新的工具,也为未来研究LLM的推理机制指明了方向。 这也提醒我们,仅仅追求表面上的高分是不够的,真正理解和掌握解题逻辑才是关键。
联系作者
文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构