GPT-4、Gemini同时被曝重大缺陷，逻辑推理大翻车！DeepMind上交校友团队发现LLM严重降智

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：GPT-4、Gemini同时被曝重大缺陷，逻辑推理大翻车！DeepMind上交校友团队发现LLM严重降智
关键字：顺序,问题,前提,模型,研究人员
文章来源：新智元
内容字数：10483字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】谷歌DeepMind最新研究发现，问题中前提条件的呈现顺序，对于大模型的推理性能有着决定性的影响，打乱顺序能让模型表现下降30%。最近，谷歌DeepMind和斯坦福的研究人员发现：大模型在处理逻辑推理任务时，问题中信息呈现的顺序对模型的表现有着决定性的影响。
论文地址：https://arxiv.org/abs/2402.08939
具体来说，当信息按照逻辑上的自然顺序排列时，模型的表现会更好。这一发现不仅适用于一般的逻辑推理问题，对于数学问题也同样有效。
比如，如果某个证明任务的条件是：
1. 如果A，那么B；
2. 如果B，那么C；
3. A为真。
要求大模型证明C为真，如果条件按照1，2，3的顺序呈现，那么大模型的成功率会比2，1，3的条件呈现顺序高出很多。
所以，以后用大模型，言简意赅，符合逻辑地提出问题能让它性能更强。
上图展示了一个失败的案例，GPT-4，Gemini Pro，GPT-3.5在改变相关规则的顺序后都未能成功生成证明。
上图可以看出，对于当前主流的几个大模型，改变前提的叙述顺序都会导致性能大幅下降。
有趣的是，谷歌的新型

原文链接：GPT-4、Gemini同时被曝重大缺陷，逻辑推理大翻车！DeepMind上交校友团队发现LLM严重降智