我们提出了一个新的神经长期记忆模块,该模块学会记忆历史上下文,并帮助注意力把焦点放在当前上下文,同时利用长记忆的信息。我们展示了这种神经记忆在训练时具有快速可并行化的优势,同时保持了快速的推理速度。
原标题:谷歌提出超越Transformer的新架构Titans技术报告
文章来源:人工智能学家
内容字数:44253字
Titans: 突破长文本建模瓶颈的全新神经网络架构
本文介绍了一种名为Titans的新型神经网络架构,旨在解决现有Transformer模型在处理长文本时面临的二次复杂度问题。Titans的核心创新在于引入了神经长期记忆模块(LMM),该模块能够高效地学习和记忆历史上下文信息,从而突破长文本建模的瓶颈。
1. 记忆视角:短期记忆与长期记忆的融合
文章从记忆的角度重新审视了循环模型和注意力机制。注意力机制类似于短期记忆,能够准确捕捉当前上下文窗口内的依赖关系,但存在二次复杂度限制。而神经长期记忆模块则类似于长期记忆,能够存储和检索历史信息,克服了上下文长度的限制。
2. 神经长期记忆模块(LMM)的设计与训练
LMM的设计灵感来源于人类记忆机制,它会优先记忆那些出乎意料的(即惊喜度高的)。LMM通过衡量输入数据相对于历史数据的梯度来评估惊喜度,并采用一种衰减机制来管理有限的记忆空间。这种衰减机制类似于现代循环模型中的遗忘机制,并可通过小批量梯度下降进行高效并行化训练。
3. Titans架构:三种变体
基于LMM,文章提出了Titans的三种变体,分别将LMM集成到架构中的不同位置:
- 记忆作为上下文 (MAC): LMM作为上下文信息,与当前输入一起被注意力机制处理。
- 门控记忆 (MAG): LMM与滑动窗口注意力机制通过门控机制结合,实现短期记忆和长期记忆的协同工作。
- 记忆作为一层 (MAL): LMM作为神经网络的一层,在注意力机制之前对上下文进行压缩。
此外,文章还探讨了仅使用LMM作为序列模型的可能性。
4. 实验结果:超越Transformer和现有线性循环模型
实验结果表明,Titans在语言建模、常识推理、大海捞针任务、时间序列预测和DNA建模等多个任务上均优于Transformer模型和现有的线性循环模型,尤其是在长文本场景下表现突出。Titans能够有效扩展到超过2M的上下文窗口大小,并且在准确性方面具有显著优势。
5. 效率分析与消融实验
文章还对Titans的效率进行了分析,并进行了消融实验,验证了LMM中每个组件(如深度记忆、动量、权重衰减、持久记忆等)对性能的贡献。实验结果表明,LMM的设计中的每个组件都对性能有积极的贡献。
6. 结论
Titans架构通过巧妙地融合短期记忆和长期记忆,有效解决了长文本建模的难题。其高效的训练方法和在多个任务上的优异性能,为未来长文本处理的研究提供了新的方向。
联系作者
文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构