超越 Transformer 与 Mamba，Meta 联合斯坦福等高校推出最强架构 TTT

AIGC动态1年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：超越 Transformer 与 Mamba，Meta 联合斯坦福等高校推出最强架构 TTT
关键字：模型,长上,上下文,状态,下文
文章来源：AI前线
内容字数：0字

内容摘要：

作者 | 赵明华
近日，斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构，用机器学习模型取代 RNN 的隐藏状态。
图 1 所有序列建模层都可以表示为一个根据更新规则转换的隐藏状态
这个模型通过对输入 token 进行梯度下降来压缩上下文，这种方法被称为「测试时间训练层（Test-Time-Training layers，TTT）」。该研究作者之一 Karan Dalal 表示，他相信这将根本性地改变语言模型方法。
自注意力机制在处理长上下文时表现良好，但其复杂度是二次的。现有的 RNN 层具有线性复杂度，但其在长上下文中的表现受限于其隐藏状态的表达能力。随着上下文长度的增加，成本也会越来越高。
作者提出了一种具有线性复杂度和表达能力强的隐藏状态的新型序列建模层。关键思路是让隐藏状态本身成为一个机器学习模型，并将更新规则设为自监督学习的一步。
图 2，RNN 层与 TTT 层的关系
论文中提出了两种实例：TTT-Linear 和 TTT-MLP，它们的隐藏状态分别是线性模型和两层 MLP。团队在 125M 到 1.3B 参数规模上评估了实例，并与强大的 Tran

原文链接：超越 Transformer 与 Mamba，Meta 联合斯坦福等高校推出最强架构 TTT