拆分Transformer注意力，韩国团队让大模型解码提速20倍

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：拆分Transformer注意力，韩国团队让大模型解码提速20倍
关键字：向量,注意力,吞吐量,全局,序列
文章来源：量子位
内容字数：0字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI只要将注意力切块，就能让大模型解码提速20倍。
来自韩国科学技术研究院、LG和DeepMind的研究人员，提出了一种新的Transformer架构。
不仅获得了更快的推理速度，内存开销也大幅度下降。
研究人员详细分析了原始Transformer推理速度慢的原因——
原始Transformer每生成一个Token就要访问一次全局KV缓存，消耗了大量资源。
实际上，这种方法的GPU有效利用率不到1%，其余的99%都用在了内存访问上。
针对这一问题，团队对Transformer的注意力机制进行了切块调整，提出了名为Block Transformer的新架构。
结果在没有明显质量损失的情况下，推理吞吐量提升了10-20倍。
有网友表示，自己之前也有过类似的思路，但结果模型的性能不足，现在这个方法看上去确实有效削减了KV缓存。
“切开”Transformer的注意力原始Transformer当中，对全局KV的频繁访问，导致计算复杂度高、内存占用大，但推理吞吐量却很低。
针对这一问题，作者的核心思路是将原始Transformer的全局注意力分解，

原文链接：拆分Transformer注意力，韩国团队让大模型解码提速20倍