新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事
关键字：注意力,模型,矩阵,状态,线性
文章来源：量子位
内容字数：0字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba，刚刚更新了第二代：
Mamba-2，状态空间扩大8倍，训练速度提高50%！
更重要的是，团队研究发现原来Transformer和状态空间模型（SSM）竟然是近亲？？‍
两大主流序列建模架构，在此统一了。
没错，这篇论文的提出的重磅发现：Transformer中的注意力机制与SSM存在着非常紧密的数系。
团队通过提出一个叫结构化状态空间二元性（Structured State Space Duality，SSD）的理论框架，把这两大模型家族统一了起来。
Mamba一代论文年初被ICLR拒稿，当时还让许多学者集体破防，引起一阵热议。
这次二代论文在理论和实验上都更丰富了，成功入选ICML 2024。
作者依然是Albert Gu和Tri Dao两位。
他们透露，论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transformers are RNNs”。
那么，SSM和注意力机制究竟是怎么联系起来的，Mamba-2模型层面又做出哪些改进？
统一S

原文链接：新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事