谷歌新架构一战成名，打破Transformer记忆瓶颈，姚班校友钟沛林新作

AIGC动态6个月前发布量子位

327 0 0

意料之外的“惊喜”更容易被AI记住

原标题：谷歌新架构一战成名，打破Transformer记忆瓶颈，姚班校友钟沛林新作
文章来源：量子位
内容字数：3197字

谷歌Titan架构：挑战Transformer的新型深度学习架构

本文总结了谷歌研究团队提出的新型深度学习架构Titan，该架构旨在挑战Transformer的局限性，尤其是在处理长文本和长期记忆方面。文章重点介绍了Titan的核心创新点、架构变体以及实验结果。

1. 背景：Transformer的局限性与Titan的动机

Transformer的注意力机制虽然强大，但其短期记忆特性限制了其处理超长序列的能力。现有模型如LSTM也存在容量有限或计算开销过大的问题。Titan团队受神经心理学启发，旨在构建一个能够有效存储和检索长期信息的深度学习模型。

2. Titan的核心创新：神经长期记忆模块(LMM)

Titan的核心是其神经长期记忆模块（LMM）。该模块模仿人脑记忆机制，优先记忆“惊喜”程度高的（由输入的梯度衡量）。通过引入动量机制累积短期惊喜形成长期记忆，并通过遗忘机制防止记忆溢出。LMM由多层MLP组成，能够存储深层次的数据抽象，比传统的矩阵记忆更强大。这种在线元学习范式使得模型能够根据新数据调整自身，提升泛化能力，并支持并行计算。

3. Titan的架构变体

为了将LMM融入深度学习架构，Titan提出了三种变体：

MAC (Memory As Context): 将长期记忆和持久记忆作为当前输入的上下文，一同输入到注意力机制。
MAG (Memory As Gate): 在记忆模块和滑动窗口注意力机制两个分支上进行门控融合。
MAL (Memory As Layer): 将记忆模块作为的一层，压缩历史信息后再输入到注意力机制。

实验表明，每种方法都有各自的优缺点。

4. 实验结果与性能

Titan在语言建模、常识推理、时间序列预测等任务上全面超越了Transformer和Mamba等架构的SOTA模型。即使仅使用LMM，也在多个任务上击败了基线模型，证明了其学习能力。在长文本“大海捞针”测试中，Titan在序列长度从2k增加到16k的情况下，准确率仍保持在90%左右。在需要对分布在极长文档中的事实进行推理的任务中，Titan的表现超过了GPT-4、Mamba以及Llama3.1 + RAG系统。在时间序列预测和DNA序列建模等特定任务中，Titan也取得了不错的表现。

5. 团队背景与未来展望

该研究由来自Google Research NYC算法和优化团队的三位作者完成，一作为康奈尔大学实习生Ali Behrouz，团队计划很快公开用于训练和评估模型的代码。

总而言之，Titan架构通过引入创新的神经长期记忆模块，有效地解决了Transformer在处理长文本和长期依赖方面的局限性，并在多个任务上取得了显著的性能提升。这项研究为深度学习架构的发展提供了新的方向。