Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办

AIGC动态11个月前发布 量子位
15 0 0

Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办

AIGC动态欢迎阅读

原标题:Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办

关键字:解读,模型,架构,序列,状态

文章来源:量子位

内容字数:5041字

内容摘要:梦晨 发自 凹非寺量子位 | 公众号 QbitAI现在ChatGPT等大模型一大痛点:处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制的二次复杂度。FlashAttention作者Tri Dao参与提出的新架构,成为有力挑战者,引起大量关注:Mamba(曼巴,一种蛇),在语言任务上击败/匹配Transformer性能,具有线性复杂度和5倍推理吞吐量。具体来说,Mamba在语言、音频、DNA序列模态上都实现SOTA。在最受关注的语言任务上,Mamba-3B超越同等规模的Transformer,与两倍大的Transformer匹敌。并且相关代码、预训练模型checkpoint都已开源。两位作者的解读都获得大量转发。有网友发现,连在线预测平台上的“Transformer在2027年还是SOTA吗?”都在这一天出现明显下降。有选择处理信息+硬件感知算法。Mamba是一种状态…

原文链接:点此阅读原文:Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...