新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

AIGC动态3个月前发布 量子位
9 0 0

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

AIGC动态欢迎阅读

原标题:新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
关键字:注意力,模型,矩阵,状态,线性
文章来源:量子位
内容字数:0字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba,刚刚更新了第二代:
Mamba-2,状态空间扩大8倍,训练速度提高50%!
更重要的是,团队研究发现原来Transformer和状态空间模型(SSM)竟然是近亲??‍
两大主流序列建模架构,在此统一了。
没错,这篇论文的提出的重磅发现:Transformer中的注意力机制与SSM存在着非常紧密的数学联系。
团队通过提出一个叫结构化状态空间二元性(Structured State Space Duality,SSD)的理论框架,把这两大模型家族统一了起来。
Mamba一代论文年初被ICLR拒稿,当时还让许多学者集体破防,引起一阵热议。
这次二代论文在理论和实验上都更丰富了,成功入选ICML 2024。
作者依然是Albert Gu和Tri Dao两位。
他们透露,论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transformers are RNNs”。
那么,SSM和注意力机制究竟是怎么联系起来的,Mamba-2模型层面又做出哪些改进?
统一S


原文链接:新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...