AIGC动态欢迎阅读
原标题:苹果发文质疑:大语言模型根本无法进行逻辑推理
关键字:模型,问题,能力,语言,性能
文章来源:人工智能学家
内容字数:0字
内容摘要:
大语言模型(LLM)是真的会数学推理?还是只是在“套路”解题?
近年来,大语言模型在各种任务中的表现引起广泛关注。一个核心问题逐渐浮现:这些模型是否真正具备逻辑推理能力,还是仅仅通过复杂的模式匹配来应对看似推理的问题?尤其是在数学推理任务中,模型的表现究竟是在模拟人类思维,还是仅仅通过数据模式匹配得出答案?
日前,来自苹果公司的 Iman Mirzadeh 及其研究团队提出了一个名为 GSM-Symbolic 的新基准,针对多个开源模型(如 Llama、Phi、Gemma、Mistral)和闭源模型(如 GPT-4o、o1 系列)进行了大规模评估。
结果显示,当问题中的数值或名字变化时,模型的会表现出显著的波动。此外,随着问题难度的提升(如增加更多子句),模型的表现迅速下降,这表明这些模型在推理复杂问题时非常脆弱。
研究团队认为,这种表现下降并非偶然,而是因为当前的大语言模型缺乏真正的逻辑推理能力,更多是在基于训练数据中的模式进行匹配,而非像人类一样进行符号和逻辑推导。
即使是简单的变化,如调整问题中的数值,也能导致模型准确率下降 10%。而当问题增加一个额外但无关的子句时,性能下降幅
联系作者
文章来源:人工智能学家
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...