挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径

AIGC动态9个月前发布 机器之心
611 0 0

挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径

AIGC动态欢迎阅读

原标题:挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径
关键字:序列,模型,长程,建模,状态
文章来源:机器之心
内容字数:14845字

内容摘要:


机器之心报道
编辑:张倩对 SSM 感兴趣的研究者不妨读一下这篇博士论文。
在大模型领域,Transformer 凭一己之力撑起了整个江山。但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显,比如其自注意力机制的计算量会随着上下文长度的增加呈平方级增长。为了克服这些缺陷,研究者们开发出了很多注意力机制的高效变体,但收效甚微。
最近,一项名为「Mamba」的研究似乎打破了这一局面,它在语言建模方面可以媲美甚至击败 Transformer。这都要归功于作者提出的一种新架构 —— 选择性状态空间模型( selective state space model),该架构是 Mamba 论文作者 Albert Gu 此前主导研发的 S4 架构(Structured State Spaces for Sequence Modeling )的一个简单泛化。
在 Mamba 论文发布后,很多研究者都对 SSM(state space model)、S4 等相关研究产生了好奇。其中,有位研究者表示自己要在飞机上把这些论文都读一下。对此,Albert Gu 给出了更好的


原文链接:挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...