GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智

AIGC动态7个月前发布 新智元
16 0 0

GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智

AIGC动态欢迎阅读

原标题:GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智
关键字:顺序,问题,前提,模型,研究人员
文章来源:新智元
内容字数:10483字

内容摘要:


新智元报道编辑:编辑部
【新智元导读】谷歌DeepMind最新研究发现,问题中前提条件的呈现顺序,对于大模型的推理性能有着决定性的影响,打乱顺序能让模型表现下降30%。最近,谷歌DeepMind和斯坦福的研究人员发现:大模型在处理逻辑推理任务时,问题中信息呈现的顺序对模型的表现有着决定性的影响。
论文地址:https://arxiv.org/abs/2402.08939
具体来说,当信息按照逻辑上的自然顺序排列时,模型的表现会更好。这一发现不仅适用于一般的逻辑推理问题,对于数学问题也同样有效。
比如,如果某个证明任务的条件是:
1. 如果A,那么B;
2. 如果B,那么C;
3. A为真。
要求大模型证明C为真,如果条件按照1,2,3的顺序呈现,那么大模型的成功率会比2,1,3的条件呈现顺序高出很多。
所以,以后用大模型,言简意赅,符合逻辑地提出问题能让它性能更强。
上图展示了一个失败的案例,GPT-4,Gemini Pro,GPT-3.5在改变相关规则的顺序后都未能成功生成证明。
上图可以看出,对于当前主流的几个大模型,改变前提的叙述顺序都会导致性能大幅下降。
有趣的是,谷歌的新型


原文链接:GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...