AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

本工作由北京邮电大学和彩云科技合作完成。

AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

原标题:AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路
文章来源:机器之心
内容字数:6537字

大型语言模型组合关系推理能力研究:Generalized Associative Recall (GAR) 基准测试

本文介绍了北京邮电大学和彩云科技合作完成的一项研究,该研究针对大型语言模型(LLM)的组合关系推理(CRR)能力进行了深入探究,并提出了一个新的基准测试——广义关联回忆(GAR)。

1. GAR基准测试:评估LLM组合推理能力

目前LLM评估任务存在两大问题:要么过于简单,无法反映复杂推理场景;要么过于复杂,不利于研究模型内部机制。GAR基准测试整合了知识回忆、关联回忆、间接宾语识别等经典任务,并通过多种任务形式(肯定/否定句、生成/分类)和难度等级,系统地评估LLM的推理能力。其特点在于挑战性高,即使最先进的LLM表现也不理想,且任务相对简单,便于研究模型内部机制。

2. 现有模型在GAR上的表现

实验结果表明,任务难度显著影响模型表现,推理步骤或复杂度增加会导致准确率下降。研究还发现了“组合性差距”现象:模型能很好地回答子问题,但无法组合这些答案得出最终结论。模型规模与性能并非简单的正相关,更大模型的组合性差距反而可能更明显。尽管GAR对LLM具有挑战性,但对人类而言却非常容易,这揭示了LLM在CRR方面存在根本性缺陷,并非仅仅是知识缺失导致的。

3. 模型内部推理机制研究

研究者采用归因补丁方法,分析模型推理过程中的关键计算单元,特别是注意力头的作用。发现Vicuna-33B模型中存在一组通用的核心回路,可被不同任务重复利用。研究者识别出两类关键注意力头:“True head”和“False head”,分别表示“真”和“假”的概念,并在不同任务和模型中扮演重要角色。这些注意力头形成的闭环结构,与GAR任务构建时的关系环一致,保证了可预测性。

4. 干预关键注意力头提升LLM表现

研究者通过干预True/False注意力头,验证了其通用性和有效性。实验表明,干预这些注意力头可以显著提升模型在判别任务中的准确率。这表明True/False头编码了真假概念,并在GAR任务中起到了判断语句真伪的关键作用。

5. 研究意义

这项研究首次明确指出了LLM在组合关系推理任务中的核心缺陷,并揭示了模型内部的关键推理机制。这加深了对LLM工作原理的理解,并为模型改进提供了方向,例如优化注意力机制和设计更具多样性的基准测试。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...