推理？别闹了！现在的 AI 仍然连小学数学题都搞不定！

AIGC动态2年前 (2024)发布 AI范儿

AIGC动态欢迎阅读

原标题：推理？别闹了！现在的 AI 仍然连小学数学题都搞不定！
关键字：模型,准确率,研究人员,测试,能力
文章来源：AI范儿
内容字数：0字

内容摘要：

“
研究发现，尽管OpenAI和Google等公司强调其AI模型的推理能力，但苹果的研究表明，当前的大型语言模型（LLMs）在面对微小变化时，推理能力脆弱且不可靠。测试结果显示，模型依赖于模式匹配，而非真正的逻辑推理，揭示了其在复杂任务中的局限性。最近，OpenAI 和 Google 等公司一直在宣传他们的人工智能（AI）模型在“推理”方面的先进能力，认为这是技术发展的重要一步。然而，苹果公司的六位工程师最近做的一项研究发现，这些大型语言模型（LLMs）在面对一些看似小的变化时，其数学推理能力其实很脆弱，也不太可靠。
研究表明，LLMs并没有真正理解基本概念，而是通过匹配训练数据中的概率模式来工作。研究人员认为：“现在的LLMs并不具备真正的逻辑推理能力，它们只是模仿在训练中见过的推理步骤。”
在一篇名为《GSM-Symbolic: 理解大型语言模型数学推理的局限性》的论文中，这六位研究人员使用了一个标准化的数据集，里面有超过8000道小学级别的数学题，通常用来测试现代LLMs的推理能力。他们创新性地修改了测试数据，动态替换了一些名字和数字。例如，原本是索菲为侄子买31块积木的问题，可

原文链接：推理？别闹了！现在的 AI 仍然连小学数学题都搞不定！