一文看懂Mamba,Transformer最强竞争者

一文看懂Mamba,Transformer最强竞争者

AIGC动态欢迎阅读

原标题:一文看懂Mamba,Transformer最强竞争者
关键字:报告,模型,序列,状态,数据
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:PandaMamba 虽好,但发展尚早。深度学习架构有很多,但近些年最成功的莫过于 Transformer,其已经在多个应用领域确立了自己的主导地位。
如此成功的一大关键推动力是注意力机制,这能让基于 Transformer 的模型关注与输入序列相关的部分,实现更好的上下文理解。但是,注意力机制的缺点是计算开销大,会随输入规模而二次增长,也因此就难以处理非常长的文本。
好在前段时间诞生了一种颇具潜力的新架构:结构化的状态空间序列模型(SSM)。该架构能高效地捕获序列数据中的复杂依赖关系,并由此成为 Transformer 的一大强劲对手。
这类模型的设计灵感来自经典的状态空间模型 —— 我们可以将其看作是循环神经网络和卷积神经网络的融合模型。它们可使用循环或卷积运算进行高效地计算,从而让计算开销随序列长度而线性或近线性地变化,由此大幅降低计算成本。
更具体而言,SSM 最成功的变体之一 Mamba 的建模能力已经可以比肩 Transformer,同时还能维持随序列长度的线性可扩展性。
Mamba 首先引入了一个简单却有效选择机制,其可根据输入对 SSM 进行重新参数


原文链接:一文看懂Mamba,Transformer最强竞争者

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...