AIGC动态欢迎阅读
原标题:斯坦福提出大模型最强架构TTT,超越Transformers
关键字:梯度,模型,上下文,线性,文本
文章来源:夕小瑶科技说
内容字数:0字
内容摘要:
夕小瑶科技说 原创作者 | 谢年年在Transformer被提出以前,以LSTMs为代表的RNNs网络结构由于计算简单、擅长处理序列数据常被用作NLP领域的基础架构。但受其结构限制,RNNs容易出现梯度消失和梯度问题,也无法像Transformer那样进行缩放或有效地利用长上下文。而自注意力机制则擅长处理长文本,但它计算起来有些复杂,复杂度跟数据长度的平方成正比。
最近,来自Stanford的团队设计了一种新的序列建模层——测试时训练(Learn at Test Time)(TTT)层。这个层既保持了线性复杂度的好处,又让隐藏状态变得更加强大和灵活。TTT受自监督学习启发,把隐藏状态本身变成一个小型的机器学习模型,然后每次处理新数据时,都用自监督学习的方式来更新这个模型。这样,隐藏状态就能不断学习和进步,就像我们人类在学习新知识一样。
论文标题:Learning to (Learn at Test Time): RNNs with Expressive Hidden States
论文链接:https://arxiv.org/pdf/2407.04620
作者测试了从125M到1.
原文链接:斯坦福提出大模型最强架构TTT,超越Transformers
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189