再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升
关键字：矩阵,注意力,状态,算法,张量
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
机器之心编辑部自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，一直稳居语言建模方面 C 位。
但随着模型规模的扩展和需要处理的序列不断变长，Transformer 的局限性也逐渐凸显。一个很明显的缺陷是：Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长。
几个月前，Mamba 的出现打破了这一局面，它可以随上下文长度的增加实现线性扩展。随着 Mamba 的发布，这些状态空间模型 (SSM) 在中小型规模上已经实现了与 Transformers 匹敌，甚至超越 Transformers。
Mamba 的作者只有两位，一位是卡内基梅隆大学机器学习系助理教授 Albert Gu，另一位是 Together.AI 首席科学家、普林斯顿大学计算机科学助理教授 Tri Dao。
Mamba 面世之后的这段时间里，社区反应热烈。可惜的是，Mamba 的论文却惨遭 ICLR 拒稿，让一众研究者颇感意外。
仅仅六个月后，原作者带队，更强大的 Mamba 2 正式发布了。论文地址：https://arxiv.org/p

原文链接：再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升