Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍
关键字：注意力,序列,模型,维度,矩阵
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transformer和SSM直接成了「一家亲」，Mamba-2这是要一统江湖了？年前，Mamba被顶会ICLR拒稿的消息曾引起轩然。
甚至有研究人员表示：如果这种工作都被拒了，那我们这些「小丑」要怎么办？
这次，新一代的Mamba-2卷土重来、再战顶会，顺利拿下了ICML 2024！
仍是前作的两位大佬（换了个顺序），仍是熟悉的配方：
论文地址：https://arxiv.org/pdf/2405.21060
开源代码和模型权重：https://github.com/state-spaces/mamba
不同的是，作者在更高的视角上，统一了状态空间模型（SSM）和注意力机制（Attention），也就是文章标题所说的「Transformers are SSMs」。
——这下咱们都是一家人了，不用动不动就「打生」了。
性能方面，Mamba-2采用了新的算法（SSD），比前代提速2-8倍，对比FlashAttention-

原文链接：Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍