大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜Transformer

AIGC动态1年前 (2024)发布新智元

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

AIGC动态欢迎阅读

原标题：大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜Transformer
关键字：上下文,研究人员,模型,状态,序列
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】超越Transformer和Mamba的新架构，刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法，直接替代了注意力机制，语言模型方法从此或将彻底改变。一觉醒来，超越Transformer和Mamba的新架构诞生了？
斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构，用机器学习模型取代RNN的隐藏状态。
论文地址：https://arxiv.org/abs/2407.04620
这个模型通过对输入token进行梯度下降来压缩上下文，这种方法被称为「测试时间训练层（Test-Time-Training layers，TTT）」。
TTT层直接替代了注意力机制，解锁了具有表现力记忆的线性复杂度架构，使我们能够在上下文中训练包含数百万（未来可能是数十亿）个token的LLM。
作者相信，这个研究了一年多的项目，将从根本上改变我们的语言模型方法。
而结果证明，TTT-Linear和TTT-MLP直接赶超或击败了最强的Transformer和Mamba！
作者之一的Xiaolong Wang惊喜地表示：不敢相信，我们真的做到了。
更令

原文链接：大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜Transformer

联系作者

文章来源：新智元
作者微信：AI_era
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

# AIGC动态 # 上下文 # 序列 # 模型 # 状态 # 研究人员

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜Transformer

AIGC动态欢迎阅读

内容摘要：

联系作者

18.98 万！史上最便宜的宝马 MINI，还是卖贵了

第一批正在被AIGC重置的行业有话说

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑， 一夜Transformer

AIGC动态欢迎阅读

内容摘要：

联系作者

18.98 万！史上最便宜的宝马 MINI，还是卖贵了

第一批正在被AIGC重置的行业有话说

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜Transformer