AIGC动态欢迎阅读
原标题:新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
关键字:注意力,模型,矩阵,状态,线性
文章来源:量子位
内容字数:0字
内容摘要:
梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba,刚刚更新了第二代:
Mamba-2,状态空间扩大8倍,训练速度提高50%!
更重要的是,团队研究发现原来Transformer和状态空间模型(SSM)竟然是近亲??
两大主流序列建模架构,在此统一了。
没错,这篇论文的提出的重磅发现:Transformer中的注意力机制与SSM存在着非常紧密的数系。
团队通过提出一个叫结构化状态空间二元性(Structured State Space Duality,SSD)的理论框架,把这两大模型家族统一了起来。
Mamba一代论文年初被ICLR拒稿,当时还让许多学者集体破防,引起一阵热议。
这次二代论文在理论和实验上都更丰富了,成功入选ICML 2024。
作者依然是Albert Gu和Tri Dao两位。
他们透露,论文题目中“Transformers are SSMs”是致敬了4年前的线性注意力经典论文“Transformers are RNNs”。
那么,SSM和注意力机制究竟是怎么联系起来的,Mamba-2模型层面又做出哪些改进?
统一S
原文链接:新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...