Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文

AIGC动态8个月前发布 新智元
22 0 0

Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文

AIGC动态欢迎阅读

原标题:Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文
关键字:模型,上下文,架构,吞吐量,长上
文章来源:新智元
内容字数:5489字

内容摘要:


新智元报道编辑:编辑部
【新智元导读】52B的生产级Mamba大模型来了!这个超强变体Jamba刚刚打破世界纪录,它能正面硬刚Transformer,256K超长上下文窗口,吞吐量提升3倍,权重免费下载。之前引爆了AI圈的Mamba架构,今天又推出了一版超强变体!
人工智能独角兽AI21 Labs刚刚开源了Jamba,世界上第一个生产级的Mamba大模型!
Jamba在多项基准测试中表现亮眼,与目前最强的几个开源Transformer平起平坐。
特别是对比性能最好的、同为MoE架构的Mixtral 8x7B,也互有胜负。
具体来说它——
是基于全新SSM-Transformer混合架构的首个生产级Mamba模型
与Mixtral 8x7B相比,长文本处理吞吐量提高了3倍
实现了256K超长上下文窗口
是同等规模中,唯一一个能在单张GPU上处理140K上下文的模型
以Apache 2.0开源许可协议发布,开放权重
之前的Mamba因为各种限制,只做到了3B,还被人质疑能否接过Transformer的大旗,而同为线性RNN家族的RWKV、Griffin等也只扩展到了14B。
——Jamb


原文链接:Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...