Transformer挑战者出现！斯坦福CMU联合团队，开源模型及代码，公司已创办

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：Transformer挑战者出现！斯坦福CMU联合团队，开源模型及代码，公司已创办

文章来源：量子位

内容字数：5041字

内容摘要：梦晨发自凹非寺量子位 | 公众号 QbitAI现在ChatGPT等大模型一大痛点：处理长文本算力消耗巨大，背后原因是Transformer架构中注意力机制的二次复杂度。FlashAttention作者Tri Dao参与提出的新架构，成为有力挑战者，引起大量关注：Mamba（曼巴，一种蛇），在语言任务上击败/匹配Transformer性能，具有线性复杂度和5倍推理吞吐量。具体来说，Mamba在语言、音频、DNA序列模态上都实现SOTA。在最受关注的语言任务上，Mamba-3B超越同等规模的Transformer，与两倍大的Transformer匹敌。并且相关代码、预训练模型checkpoint都已开源。两位作者的解读都获得大量转发。有网友发现，连在线预测平台上的“Transformer在2027年还是SOTA吗？”都在这一天出现明显下降。有选择处理信息+硬件感知算法。Mamba是一种状态…

原文链接：点此阅读原文：Transformer挑战者出现！斯坦福CMU联合团队，开源模型及代码，公司已创办