意料之外的“惊喜”更容易被AI记住
原标题:谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作
文章来源:量子位
内容字数:3197字
谷歌Titan架构:挑战Transformer的新型深度学习架构
本文总结了谷歌研究团队提出的新型深度学习架构Titan,该架构旨在挑战Transformer的局限性,尤其是在处理长文本和长期记忆方面。文章重点介绍了Titan的核心创新点、架构变体以及实验结果。
1. 背景:Transformer的局限性与Titan的动机
Transformer的注意力机制虽然强大,但其短期记忆特性限制了其处理超长序列的能力。现有模型如LSTM也存在容量有限或计算开销过大的问题。Titan团队受神经心理学启发,旨在构建一个能够有效存储和检索长期信息的深度学习模型。
2. Titan的核心创新:神经长期记忆模块(LMM)
Titan的核心是其神经长期记忆模块(LMM)。该模块模仿人脑记忆机制,优先记忆“惊喜”程度高的(由输入的梯度衡量)。通过引入动量机制累积短期惊喜形成长期记忆,并通过遗忘机制防止记忆溢出。LMM由多层MLP组成,能够存储深层次的数据抽象,比传统的矩阵记忆更强大。这种在线元学习范式使得模型能够根据新数据调整自身,提升泛化能力,并支持并行计算。
3. Titan的架构变体
为了将LMM融入深度学习架构,Titan提出了三种变体:
- MAC (Memory As Context): 将长期记忆和持久记忆作为当前输入的上下文,一同输入到注意力机制。
- MAG (Memory As Gate): 在记忆模块和滑动窗口注意力机制两个分支上进行门控融合。
- MAL (Memory As Layer): 将记忆模块作为的一层,压缩历史信息后再输入到注意力机制。
实验表明,每种方法都有各自的优缺点。
4. 实验结果与性能
Titan在语言建模、常识推理、时间序列预测等任务上全面超越了Transformer和Mamba等架构的SOTA模型。即使仅使用LMM,也在多个任务上击败了基线模型,证明了其学习能力。在长文本“大海捞针”测试中,Titan在序列长度从2k增加到16k的情况下,准确率仍保持在90%左右。在需要对分布在极长文档中的事实进行推理的任务中,Titan的表现超过了GPT-4、Mamba以及Llama3.1 + RAG系统。在时间序列预测和DNA序列建模等特定任务中,Titan也取得了不错的表现。
5. 团队背景与未来展望
该研究由来自Google Research NYC算法和优化团队的三位作者完成,一作为康奈尔大学实习生Ali Behrouz,团队计划很快公开用于训练和评估模型的代码。
总而言之,Titan架构通过引入创新的神经长期记忆模块,有效地解决了Transformer在处理长文本和长期依赖方面的局限性,并在多个任务上取得了显著的性能提升。这项研究为深度学习架构的发展提供了新的方向。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破