AIGC动态欢迎阅读
原标题:Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具
关键字:人类,语言,解读,任务,能力
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:Aeneas 好困
【新智元导读】最近,Nature上的一项研究,全面驳斥了LLM具有类人推理能力的说法。研究者设定的「人类亲吻难题」把7个大模型彻底绕晕。最终研究者表示,与其说LLM是科学理论,不如说它们更接近工具,比如广义导数。LLM究竟是否拥有类似人类的符合理解和推理能力呢?
许多认知科学家和机器学习研究人员,都会认为,LLM表现出类人(或「接近类人」)的语言能力。
然而,来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据,表明目前它们基本没有!
论文地址:https://www.nature.com/articles/s41598-024-79531-8
基于一个全新的基准数据集,研究者对目前最先进的7个模型(包括GPT-4、Llama2、Gemini和 Bard)进行了评估。
他们让模型回答了理解性问题,在两种设置下多次被提示,允许模型只回答一个单词,或给出开放长度的回复。
约翰了玛丽,露西也被玛丽了。在这种情况下,玛丽是否了露西?
史蒂夫拥抱了莫莉,莫莉亲吻了唐娜。在这种情况
原文链接:Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具
联系作者
文章来源:新智元
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...