大模型推理更可能是概率模式匹配?北大团队从蒙特卡洛语言树的新视角解读GPT,思维链原理也有新的理解

同时还解释了大模型幻觉现象

大模型推理更可能是概率模式匹配?北大团队从蒙特卡洛语言树的新视角解读GPT,思维链原理也有新的理解

原标题:大模型推理更可能是概率模式匹配?北大团队从蒙特卡洛语言树的新视角解读GPT,思维链原理也有新的理解
文章来源:量子位
内容字数:3417字

GPT-Tree:理解大模型行为的新视角

北京大学课题组提出了一种新颖的视角,将语言数据集和GPT模型分别展开为蒙特卡洛语言树(Data-Tree和GPT-Tree),从而更深入地理解大模型的行为,包括思维链的有效性、token-bias现象以及模型幻觉。

1. Data-Tree和GPT-Tree的构建

研究人员证明,任何语言数据集都可以用Data-Tree完美表示。Data-Tree以第一个token作为根节点,通过枚举后续token及其条件频率构建树结构。GPT-Tree则通过将GPT模型作为预测引擎,以同样的方式构建,记录每个token的概率分布。两者都通过蒙特卡洛树的方式展开,参数化模型参数θ。

2. 大模型的本质:数据树近似

研究发现,不同GPT模型(如GPT-neo-X系列)在同一数据集上训练后,其GPT-Tree结构具有显著相似性,且模型越大,其GPT-Tree越接近Data-Tree。超过87%的GPT输出token可以被Data-Tree召回。这表明,大模型训练的本质是学习一种更有效地近似Data-Tree的方法,其推理过程更可能是概率模式匹配而非形式推理。

3. Token-bias和模型幻觉的解释

研究解释了token-bias现象:一些罕见的token会诱导GPT-Tree进入错误的推断路径,导致模型输出错误。通过实验,他们发现扰动最后一个token会显著降低模型准确性。模型幻觉则被解释为数据树中token共现偏差导致的。例如,多伦多和加拿大这两个词的高频共现,可能导致模型错误地将多伦多认定为加拿大首都。

4. 思维链的有效性解释

在蒙特卡洛树视角下,思维链的有效性在于弥补输入X和输出Y之间存在的差距。对于复杂问题,Y可能位于GPT-Tree中较深的叶节点,思维链的作用是找到连接X和Y的路径Z,帮助模型更好地进行预测。

5. 研究意义

这项研究为理解大模型行为提供了新的视角,解释了模型的优势和局限性,例如思维链的有效性、token-bias和模型幻觉。通过将模型和数据转化为树形结构,研究人员能够更直观地分析模型的学习过程和推理机制,为未来大模型的改进提供新的思路。

6. 结论

GPT-Tree框架为理解大语言模型提供了一种全新的、直观的分析方法,有助于我们更好地理解这些模型的运作机制,并为改进模型性能提供理论指导。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...