AIGC动态欢迎阅读
原标题:Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办
文章来源:量子位
内容字数:5041字
内容摘要:梦晨 发自 凹非寺量子位 | 公众号 QbitAI现在ChatGPT等大模型一大痛点:处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制的二次复杂度。FlashAttention作者Tri Dao参与提出的新架构,成为有力挑战者,引起大量关注:Mamba(曼巴,一种蛇),在语言任务上击败/匹配Transformer性能,具有线性复杂度和5倍推理吞吐量。具体来说,Mamba在语言、音频、DNA序列模态上都实现SOTA。在最受关注的语言任务上,Mamba-3B超越同等规模的Transformer,与两倍大的Transformer匹敌。并且相关代码、预训练模型checkpoint都已开源。两位作者的解读都获得大量转发。有网友发现,连在线预测平台上的“Transformer在2027年还是SOTA吗?”都在这一天出现明显下降。有选择处理信息+硬件感知算法。Mamba是一种状态…
原文链接:点此阅读原文:Transformer挑战者出现!斯坦福CMU联合团队,开源模型及代码,公司已创办
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...