通研院研究发现大语言模型在心智推理和行为规划上显著落后于人类

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：通研院研究发现大语言模型在心智推理和行为规划上显著落后于人类
关键字：任务,模型,人类,心智,社会
文章来源：人工智能学家
内容字数：0字

内容摘要：

来源：北京通用人工智能研究院
论文导读随着大语言模型（LLMs）的不断发展，其是否具有人类水平的心智推理和社会智能这一问题得到了越来越多的关注和讨论。日前，Nature子刊《自然·人类行为》的一篇最新研究[1]表明，GPT-4在一些心智理论测试任务中的表现明显优于人类，能够比人类更好地检测出讽刺和暗示；Google DeepMind也发表了论文[2]，称他们的研究发现GPT-4在心智理论任务上的表现已经完全达到了成年人的水平，在第6阶心智推理上的表现更是大幅超过了人类。媒体报道中更是不乏“GPT-4高阶心智理论彻底击败人类！”“在心智理论上，人类是彻底被LLMs甩在后面了”等结论——然而，现在得出这些结论是否有点太早了呢？
北京通用人工智能研究院（简称通研院）研究团队通过两类简单的社会智能测试任务揭示出大语言模型在心智推理（由行动推测偏好）与行为规划（用行动表达偏好）上仍与人类存在显著差异。其表现为：在处理任务时，大语言模型更倾向依赖表层模式识别作为处理依据，没有使用更深层次的心智推理和社会智能能力来解决问题，并且在遇到新的或变化的情景时表现不佳。该研究成果由通研院联合北京大学、西安交

原文链接：通研院研究发现大语言模型在心智推理和行为规划上显著落后于人类