AIGC动态欢迎阅读
原标题:Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
关键字:注意力,序列,模型,维度,矩阵
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:编辑部
【新智元导读】在开源社区引起「海啸」的Mamba架构,再次卷土重来!这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transformer和SSM直接成了「一家亲」,Mamba-2这是要一统江湖了?年前,Mamba被顶会ICLR拒稿的消息曾引起轩然大波。
甚至有研究人员表示:如果这种工作都被拒了,那我们这些「小丑」要怎么办?
这次,新一代的Mamba-2卷土重来、再战顶会,顺利拿下了ICML 2024!
仍是前作的两位大佬(换了个顺序),仍是熟悉的配方:
论文地址:https://arxiv.org/pdf/2405.21060
开源代码和模型权重:https://github.com/state-spaces/mamba
不同的是,作者在更高的视角上,统一了状态空间模型(SSM)和注意力机制(Attention),也就是文章标题所说的「Transformers are SSMs」。
——这下咱们都是一家人了,不用动不动就「打生打死」了。
性能方面,Mamba-2采用了新的算法(SSD),比前代提速2-8倍,对比FlashAttention-
原文链接:Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...