大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

AIGC动态5个月前发布 新智元
43 0 0

大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

AIGC动态欢迎阅读

原标题:大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
关键字:上下文,研究人员,模型,状态,序列
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:编辑部
【新智元导读】超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模型方法从此或将彻底改变。一觉醒来,超越Transformer和Mamba的新架构诞生了?
斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构,用机器学习模型取代RNN的隐藏状态。
论文地址:https://arxiv.org/abs/2407.04620
这个模型通过对输入token进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。
TTT层直接替代了注意力机制,解锁了具有表现力记忆的线性复杂度架构,使我们能够在上下文中训练包含数百万(未来可能是数十亿)个token的LLM。
作者相信,这个研究了一年多的项目,将从根本上改变我们的语言模型方法。
而结果证明,TTT-Linear和TTT-MLP直接赶超或击败了最强的Transformer和Mamba!
作者之一的Xiaolong Wang惊喜地表示:不敢相信,我们真的做到了。
更令


原文链接:大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...