Mamba架构第一次做大！混合Transformer，打败Transformer

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：Mamba架构第一次做大！混合Transformer，打败Transformer
关键字：腾讯,吞吐量,模型,高效,上下文
文章来源：量子位
内容字数：3955字

内容摘要：

丰色发自凹非寺量子位 | 公众号 QbitAI精彩精彩，第一个把爆火Mamba架构真正扩展到足够大的工作来了。
520亿参数，还是Mamba+Transformer混合架构。
它的名字叫Jamba。
取两种架构之长，模型质量和效率兼得，要吞吐量有吞吐量，要低内存有低内存。
初步跑分显示：
Jamba性能总体接近Mixtral 8x-7B，处理128k长上下文时吞吐量却是其3倍。
一共支持256k上下文，而单张A100 GPU即可处理140k，直接拿下同等规模模型之最，高效又经济。
这项成果，来自AI公司AI21labs。
Mamba原作者看了之后都激动转发：
绝对的“大新闻”。
Mamba、Transformer，合体由CMU和普林斯顿大学提出的Mamba，解决了Transformer的局限性（随着推理上下文越长，模型内存占用量越大，同时推理速度变慢，由此导致算力消耗巨大）。
但它也有自己的缺点——
在不关注整个上下文的情况下，Mamba的输出质量很差，尤其是在召回相关的任务上。
本着“既要也要”的原则，Jamba站出来提供两全其美之作。
Jamba由Transformer、

原文链接：Mamba架构第一次做大！混合Transformer，打败Transformer