Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具
关键字：人类,语言,解读,任务,能力
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：Aeneas 好困
【新智元导读】最近，Nature上的一项研究，全面驳斥了LLM具有类人推理能力的说法。研究者设定的「人类亲吻难题」把7个大模型彻底绕晕。最终研究者表示，与其说LLM是科学理论，不如说它们更接近工具，比如广义导数。LLM究竟是否拥有类似人类的符合理解和推理能力呢？
许多认知科学家和机器学习研究人员，都会认为，LLM表现出类人（或「接近类人」）的语言能力。
然而，来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据，表明目前它们基本没有！
论文地址：https://www.nature.com/articles/s41598-024-79531-8
基于一个全新的基准数据集，研究者对目前最先进的7个模型（包括GPT-4、Llama2、Gemini和 Bard）进行了评估。
他们让模型回答了理解性问题，在两种设置下多次被提示，允许模型只回答一个单词，或给出开放长度的回复。
约翰了玛丽，露西也被玛丽了。在这种情况下，玛丽是否了露西？
史蒂夫拥抱了莫莉，莫莉亲吻了唐娜。在这种情况

原文链接：Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具