Mamba架构第一次做大!混合Transformer,打败Transformer

AIGC动态6个月前发布 量子位
13 0 0

Mamba架构第一次做大!混合Transformer,打败Transformer

AIGC动态欢迎阅读

原标题:Mamba架构第一次做大!混合Transformer,打败Transformer
关键字:腾讯,吞吐量,模型,高效,上下文
文章来源:量子位
内容字数:3955字

内容摘要:


丰色 发自 凹非寺量子位 | 公众号 QbitAI精彩精彩,第一个把爆火Mamba架构真正扩展到足够大的工作来了。
520亿参数,还是Mamba+Transformer混合架构。
它的名字叫Jamba。
取两种架构之长,模型质量和效率兼得,要吞吐量有吞吐量,要低内存有低内存。
初步跑分显示:
Jamba性能总体接近Mixtral 8x-7B,处理128k长上下文时吞吐量却是其3倍。
一共支持256k上下文,而单张A100 GPU即可处理140k,直接拿下同等规模模型之最,高效又经济。
这项成果,来自以色列AI公司AI21labs。
Mamba原作者看了之后都激动转发:
绝对的“大新闻”。
Mamba、Transformer,合体由CMU和普林斯顿大学提出的Mamba,解决了Transformer的局限性(随着推理上下文越长,模型内存占用量越大,同时推理速度变慢,由此导致算力消耗巨大)。
但它也有自己的缺点——
在不关注整个上下文的情况下,Mamba的输出质量很差,尤其是在召回相关的任务上。
本着“既要也要”的原则,Jamba站出来提供两全其美之作。
Jamba由Transformer、


原文链接:Mamba架构第一次做大!混合Transformer,打败Transformer

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...