Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量
关键字：模型,架构,吞吐量,上下文,长上
文章来源：机器之心
内容字数：3684字

内容摘要：

机器之心报道
编辑：小舟Mamba 时代来了？
自 2017 年开创性研究论文《Attention is All You Need》问世以来，transformer 架构就一直主导着生成式人工智能领域。
然而，transformer 架构实际上有两个显著缺点：
内存占用大：Transformer 的内存占用量随上下文长度而变化。这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行批处理变得具有挑战性，从而限制了广泛的实验和部署。
随着上下文长度的增加，推理速度会变慢：Transformer 的注意力机制随序列长度呈二次方扩展，并且会降低吞吐量，因为每个 token 都依赖于它之前的整个序列，从而将长上下文用例置于高效生产的范围之外。
但 transformer 并不是生成式人工智能唯一的前进方向。最近，AI21 Labs 推出并开源了一种名为「Jamba」的新方法，在多个基准上超越了 transformer。Hugging Face 地址：https://huggingface.co/ai21labs/Jamba-v0.1Mamba 的 SSM 架构可以很好地解决 transfo

原文链接：Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量