小技巧大功效，「仅阅读两次提示」让循环语言模型超越Transformer++

AIGC动态欢迎阅读

原标题：小技巧大功效，「仅阅读两次提示」让循环语言模型超越Transformer++
关键字：模型,上下文,研究者,解码器,因果
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：杜伟在当前 AI 领域，大语言模型采用的主流架构是 Transformer。不过，随着 RWKV、Mamba 等架构的陆续问世，出现了一个很明显的趋势：在语言建模困惑度方面与 Transformer 较量的循环大语言模型正在快速进入人们的视线。
令人兴奋的是，这些架构在推理期间使用了恒定量的内存。不过，受制于有限的内存，循环语言模型（LM）无法记忆并使用长上下文中的所有信息，这导致了上下文学习（in-context learning，ICL）质量的不佳。因此，获得高效大语言模型的关键挑战在于选择存储或者丢弃哪些信息。
在最近的论文《Just read twice: closing the recall gap for recurrent language models》中，来自斯坦福大学、布法罗大学的研究者通过简单观察发现，数据在推理期间涌入循环语言模型的排序极大地影响了在有限内存中预测存储哪些信息的难度。
我们假设根据文档 D（比如伽利略・伽利莱的详细）来提问：伽利略是什么时候搬到的佛罗伦萨？这时，如果提示遵循了 [Q, D] 的排序，则模型只需要记住文档

原文链接：小技巧大功效，「仅阅读两次提示」让循环语言模型超越Transformer++