GPT、Llama等大模型存在「逆转诅咒」，这个bug该如何缓解？

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：GPT、Llama等大模型存在「逆转诅咒」，这个bug该如何缓解？

文章来源：机器之心

内容字数：8747字

内容摘要：机器之心专栏作者：吕昂，张凯翼，解曙方，涂权，陈雨涵，文继荣，严睿中国人民大学我们是否正在掉入中等智能陷阱？一个关于大语言模型 “逆转诅咒” 的分析与缓解方法。来自中国人民大学的研究者将 Llama 等因果语言模型所遭遇的 “逆转诅咒” 归咎于 next-token prediction + causal language model 的本质缺陷，并发现 GLM 采用的自回归填空的训练方法对这种 “逆转诅咒” 显示出更强的鲁棒性。通过将双向注意力机制引入 Llama 模型进行微调，该研究实现了对 Llama 的 “逆转诅咒” 的缓解。该研究认为当前主流的这种大模型结构与训练范式存在着很多潜在的缺陷，希望有更多的研究者能够在模型结构或者预训练范式上进行创新突破，以获得更高的智能水平。论文地址：https://arxiv.org/pdf/2311.07468.pdf背景Lukas Berglu…

原文链接：点此阅读原文：GPT、Llama等大模型存在「逆转诅咒」，这个bug该如何缓解？