谷歌推出Transformer架构的继任者Titans:训练代码也会公开

谷歌推出Transformer架构的继任者Titans:训练代码也会公开

原标题:谷歌推出Transformer架构的继任者Titans:训练代码也会公开
文章来源:人工智能学家
内容字数:9852字

谷歌发布Transformer继任者Titans:神经长期记忆模块赋能AI

本文概述了谷歌最新发布的Transformer架构继任者——Titans,以及其核心创新、架构设计和实验结果。

1. Titans的核心创新:神经长期记忆模块

Titans的核心创新在于提出了一种新型的神经长期记忆模块,该模块能够在测试时学习记忆。它通过将训练过程视为在线学习问题,并根据输入的“惊讶程度”(通过计算神经网络相对于输入的梯度来衡量)来更新记忆。为了解决记忆容量有限的问题,该模块还引入了自适应的遗忘机制,并通过实验发现深度记忆模块(多层感知机)比线性模型更有效。记忆的检索则通过简单的正向传递实现。

2. Titans架构设计:三个分支协同工作

Titans架构包含三个分支:核心分支(Core)使用注意力机制处理数据;长期记忆分支(Long-term Memory)使用神经长期记忆模块存储和回忆历史信息;持久记忆分支(Persistent Memory)使用可学习但不依赖于数据的参数编码任务相关知识。论文提出了三种不同的Titans变体:上下文记忆(MAC)、门控记忆(MAG)和层式记忆(MAL),分别探索了不同记忆融合方式的有效性。

3. 实验结果:超越Transformer和循环模型

在语言建模、常识推理、长距离依赖、时间序列预测和DNA建模等任务上,Titans架构在所有基准测试中都优于现代循环模型及其混合变体,并在相同上下文窗口大小下优于Transformer模型。尤其在长上下文任务中,Titans展现出更具竞争力的性能,并能有效扩展到大于2M的上下文窗口大小。消融研究验证了架构中每个组件的积极贡献,其中权重衰减、动量、卷积和持久记忆的贡献最大。

4. 代码开源与未来展望

Titans已使用PyTorch和JAX实现,谷歌计划很快公开用于训练和评估模型的代码。这项研究为深度学习模型的长期记忆机制提供了新的思路,有望进一步提升AI模型在处理长序列数据和复杂任务方面的能力。

5. 补充:欧米伽研究所“未来知识库”

文章最后提及了欧米伽研究所的“未来知识库”,这是一个收集人工智能、脑科学等领域前沿进展与未来趋势的在线知识库平台,提供大量前沿科技趋势报告,例如美国众议院人工智能报告、DeepMind AI 加速科学创新报告等。 这部分内容旨在引导读者进一步了解相关领域的最新研究进展。


联系作者

文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止