Mamba可以替代Transformer,但它们也能组合起来使用

AIGC动态9个月前发布 机器之心
56 0 0

Mamba可以替代Transformer,但它们也能组合起来使用

AIGC动态欢迎阅读

原标题:Mamba可以替代Transformer,但它们也能组合起来使用
关键字:序列,报告,上下文,状态,注意力
文章来源:机器之心
内容字数:8264字

内容摘要:


机器之心报道
编辑:Panda W1+1>2。Transformer 很厉害,但并不完美,尤其是在处理长序列方面。而状态空间模型(SSM)则在长序列上的表现相当不俗。早在去年就有研究者提出可使用 SSM 替代 Transformer,参见文章《预训练无需注意力,扩展到4096个token不成问题,与BERT相当》,前些天基于 SSM 方法的 Mamba 更是异军突起,推理吞吐量达到了 Transformer 的五倍之多,参阅《五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈》。
但实际上,SSM 和 Transformer 并不是非此即彼的两种架构,它们完全可以组合起来!
近日公布的一篇 NeurIPS 2023 论文《Block-State Transformers》就采用了这种做法,其不仅能轻松支持 65k token 长度的超长输入,而且计算效率还非常高,速度相比使用循环单元的 Transformer 足可提升十倍之多!这篇论文也得到了 Mamba 作者 Tri Dao 的点赞,他表示:「SSM 和Transformer 似乎可以互补。」但在我们介绍这种


原文链接:Mamba可以替代Transformer,但它们也能组合起来使用

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...