谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作

意料之外的“惊喜”更容易被AI记住

谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作

原标题:谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作
文章来源:量子位
内容字数:3197字

谷歌Titan架构:挑战Transformer的新型深度学习架构

本文总结了谷歌研究团队提出的新型深度学习架构Titan,该架构旨在挑战Transformer的局限性,尤其是在处理长文本和长期记忆方面。文章重点介绍了Titan的核心创新点、架构变体以及实验结果。

1. 背景:Transformer的局限性与Titan的动机

Transformer的注意力机制虽然强大,但其短期记忆特性限制了其处理超长序列的能力。现有模型如LSTM也存在容量有限或计算开销过大的问题。Titan团队受神经心理学启发,旨在构建一个能够有效存储和检索长期信息的深度学习模型。

2. Titan的核心创新:神经长期记忆模块(LMM)

Titan的核心是其神经长期记忆模块(LMM)。该模块模仿人脑记忆机制,优先记忆“惊喜”程度高的(由输入的梯度衡量)。通过引入动量机制累积短期惊喜形成长期记忆,并通过遗忘机制防止记忆溢出。LMM由多层MLP组成,能够存储深层次的数据抽象,比传统的矩阵记忆更强大。这种在线元学习范式使得模型能够根据新数据调整自身,提升泛化能力,并支持并行计算。

3. Titan的架构变体

为了将LMM融入深度学习架构,Titan提出了三种变体:

  • MAC (Memory As Context): 将长期记忆和持久记忆作为当前输入的上下文,一同输入到注意力机制。
  • MAG (Memory As Gate): 在记忆模块和滑动窗口注意力机制两个分支上进行门控融合。
  • MAL (Memory As Layer): 将记忆模块作为的一层,压缩历史信息后再输入到注意力机制。

实验表明,每种方法都有各自的优缺点。

4. 实验结果与性能

Titan在语言建模、常识推理、时间序列预测等任务上全面超越了Transformer和Mamba等架构的SOTA模型。即使仅使用LMM,也在多个任务上击败了基线模型,证明了其学习能力。在长文本“大海捞针”测试中,Titan在序列长度从2k增加到16k的情况下,准确率仍保持在90%左右。在需要对分布在极长文档中的事实进行推理的任务中,Titan的表现超过了GPT-4、Mamba以及Llama3.1 + RAG系统。在时间序列预测和DNA序列建模等特定任务中,Titan也取得了不错的表现。

5. 团队背景与未来展望

该研究由来自Google Research NYC算法和优化团队的三位作者完成,一作为康奈尔大学实习生Ali Behrouz,团队计划很快公开用于训练和评估模型的代码。

总而言之,Titan架构通过引入创新的神经长期记忆模块,有效地解决了Transformer在处理长文本和长期依赖方面的局限性,并在多个任务上取得了显著的性能提升。这项研究为深度学习架构的发展提供了新的方向。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止