多亏Transformer，Mamba更强了！仅用1%计算量达新SOTA

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：多亏Transformer，Mamba更强了！仅用1%计算量达新SOTA
关键字：模型,序列,注意力,架构,矩阵
文章来源：量子位
内容字数：0字

内容摘要：

明敏发自凹非寺量子位 | 公众号 QbitAIAttention is all you need.
至少在矩阵这儿是。
Mamba架构最新进展：仅需1%计算量，新模型性能达SOTA。
能做到这一点，还多亏了Transformer。
通过将Transformer模型中的知识有效迁移到Mamba等替代架构中，模型能在保持较低计算成本的同时，性能更好。
这就是由Mamba主创之一Albert Gu领衔的最新成果。
值得一提的是，这种方法还适用于Mamba以外的非Transformer架构。
从Transformer到SSMsTransformer由于依赖二次自注意力机制，所需计算量很大。
二次自注意力机制能让模型在处理序列数据时有效捕捉序列内部的长距离依赖关系，但是由于二次时间复杂度（如果输入规模翻倍，模型计算所需时间增加4倍），导致处理长序列的计算成本很高。
为了解决这个问题，学界提出了很多新架构，比如Mamba、RWKV等，它们的微调和推理成本更低。
考虑到Transformer模型预训练已经投入了大量计算资源，研究人员想到，为什么不能在此基础上进行提升？
所以在本项研究中，他们提出

原文链接：多亏Transformer，Mamba更强了！仅用1%计算量达新SOTA