Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍

AIGC动态4个月前发布 新智元
6 0 0

Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍

AIGC动态欢迎阅读

原标题:Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
关键字:注意力,序列,模型,维度,矩阵
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:编辑部
【新智元导读】在开源社区引起「海啸」的Mamba架构,再次卷土重来!这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transformer和SSM直接成了「一家亲」,Mamba-2这是要一统江湖了?年前,Mamba被顶会ICLR拒稿的消息曾引起轩然大波。
甚至有研究人员表示:如果这种工作都被拒了,那我们这些「小丑」要怎么办?
这次,新一代的Mamba-2卷土重来、再战顶会,顺利拿下了ICML 2024!
仍是前作的两位大佬(换了个顺序),仍是熟悉的配方:
论文地址:https://arxiv.org/pdf/2405.21060
开源代码和模型权重:https://github.com/state-spaces/mamba
不同的是,作者在更高的视角上,统一了状态空间模型(SSM)和注意力机制(Attention),也就是文章标题所说的「Transformers are SSMs」。
——这下咱们都是一家人了,不用动不动就「打生打死」了。
性能方面,Mamba-2采用了新的算法(SSD),比前代提速2-8倍,对比FlashAttention-


原文链接:Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...