Mamba可以替代Transformer，但它们也能组合起来使用

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：Mamba可以替代Transformer，但它们也能组合起来使用
关键字：序列,报告,上下文,状态,注意力
文章来源：机器之心
内容字数：8264字

内容摘要：

机器之心报道
编辑：Panda W1+1＞2。Transformer 很厉害，但并不完美，尤其是在处理长序列方面。而状态空间模型（SSM）则在长序列上的表现相当不俗。早在去年就有研究者提出可使用 SSM 替代 Transformer，参见文章《预训练无需注意力，扩展到4096个token不成问题，与BERT相当》，前些天基于 SSM 方法的 Mamba 更是异军突起，推理吞吐量达到了 Transformer 的五倍之多，参阅《五倍吞吐量，性能全面包围Transformer：新架构Mamba引爆AI圈》。
但实际上，SSM 和 Transformer 并不是非此即彼的两种架构，它们完全可以组合起来！
近日公布的一篇 NeurIPS 2023 论文《Block-State Transformers》就采用了这种做法，其不仅能轻松支持 65k token 长度的超长输入，而且计算效率还非常高，速度相比使用循环单元的 Transformer 足可提升十倍之多！这篇论文也得到了 Mamba 作者 Tri Dao 的点赞，他表示：「SSM 和Transformer 似乎可以互补。」但在我们介绍这种

原文链接：Mamba可以替代Transformer，但它们也能组合起来使用