斯坦福提出大模型最强架构TTT，超越Transformers

AIGC动态1年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：斯坦福提出大模型最强架构TTT，超越Transformers
关键字：梯度,模型,上下文,线性,文本
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 谢年年在Transformer被提出以前，以LSTMs为代表的RNNs网络结构由于计算简单、擅长处理序列数据常被用作NLP领域的基础架构。但受其结构限制，RNNs容易出现梯度消失和梯度问题，也无法像Transformer那样进行缩放或有效地利用长上下文。而自注意力机制则擅长处理长文本，但它计算起来有些复杂，复杂度跟数据长度的平方成正比。
最近，来自Stanford的团队设计了一种新的序列建模层——测试时训练(Learn at Test Time)（TTT）层。这个层既保持了线性复杂度的好处，又让隐藏状态变得更加强大和灵活。TTT受自监督学习启发，把隐藏状态本身变成一个小型的机器学习模型，然后每次处理新数据时，都用自监督学习的方式来更新这个模型。这样，隐藏状态就能不断学习和进步，就像我们人类在学习新知识一样。
论文标题:Learning to (Learn at Test Time): RNNs with Expressive Hidden States
论文链接：https://arxiv.org/pdf/2407.04620
作者测试了从125M到1.

原文链接：斯坦福提出大模型最强架构TTT，超越Transformers

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文