AIGC动态欢迎阅读
原标题:Mamba可以替代Transformer,但它们也能组合起来使用
关键字:序列,报告,上下文,状态,注意力
文章来源:机器之心
内容字数:8264字
内容摘要:
机器之心报道
编辑:Panda W1+1>2。Transformer 很厉害,但并不完美,尤其是在处理长序列方面。而状态空间模型(SSM)则在长序列上的表现相当不俗。早在去年就有研究者提出可使用 SSM 替代 Transformer,参见文章《预训练无需注意力,扩展到4096个token不成问题,与BERT相当》,前些天基于 SSM 方法的 Mamba 更是异军突起,推理吞吐量达到了 Transformer 的五倍之多,参阅《五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈》。
但实际上,SSM 和 Transformer 并不是非此即彼的两种架构,它们完全可以组合起来!
近日公布的一篇 NeurIPS 2023 论文《Block-State Transformers》就采用了这种做法,其不仅能轻松支持 65k token 长度的超长输入,而且计算效率还非常高,速度相比使用循环单元的 Transformer 足可提升十倍之多!这篇论文也得到了 Mamba 作者 Tri Dao 的点赞,他表示:「SSM 和Transformer 似乎可以互补。」但在我们介绍这种
原文链接:Mamba可以替代Transformer,但它们也能组合起来使用
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...