Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解
关键字：模型,报告,任务,架构,电话簿
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨
【新智元导读】Mamba模型由于匹敌Transformer的巨大潜力，在推出半年多的时间内引起了巨大关注。但在大规模预训练的场景下，这两个架构还未有「一较高低」的机会。最近，英伟达、CMU、普林斯顿等机构联合发表的实证研究论文填补了这个空白。去年12月，CMU、普林斯顿的两位华人学者Albert Gu和Tri Dao一举推出了Mamba架构，向Transformer多年的霸主地位发起挑战。
论文地址：https://arxiv.org/abs/2312.00752
完全抛弃注意力机制和MLP模块、上下文长度线性缩放、推理速度比Transformer快5倍…这些特点让所有人都为之一振，Jim Fan大佬也发推赞叹「为Transformer的研究感到兴奋」。
论文发表后的6个月中，两位作者发现，虽然Mamba很强大，但是大家依旧更关注各种Transformer的变体。
毕竟整个学术社区在注意力机制上深耕多年，从模型、标准库到算子、GPU，此时完全抛弃之前的研究、转向Mamba的SSM不太现实，也让Mamba架构显得非常格格不入。
于是，我们看到Mamba-2的论

原文链接：Mamba真比Transformer更优吗？Mamba原作者：两个都要！混合架构才是最优解