五倍吞吐量，性能全面包围Transformer：新架构Mamba引爆AI圈

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：五倍吞吐量，性能全面包围Transformer：新架构Mamba引爆AI圈

文章来源：机器之心

内容字数：7438字

内容摘要：机器之心报道编辑：张倩、蛋酱屹立不倒的 Transformer 迎来了一个强劲竞争者。在别的领域，如果你想形容一个东西非常重要，你可能将其形容为「撑起了某领域的半壁江山」。但在 AI 大模型领域，Transformer 架构不能这么形容，因为它几乎撑起了「整个江山」。自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，但随着模型规模的扩展和需要处理的序列不断变长，Transformer 的局限性也逐渐凸显。一个很明显的缺陷是：Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长，比如上下文增加 32 倍时，计算量可能会增长 1000 倍，计算效率非常低。为了克服这些缺陷，研究者们开发出了很多注意力机制的高效变体，但这往往以牺牲其有效性特为代价。到目前为止，这些变体都还没有被证明能在不同领域发挥有效作用。最近，一项名为「Mam…

原文链接：点此阅读原文：五倍吞吐量，性能全面包围Transformer：新架构Mamba引爆AI圈