2.5%KV缓存保持大模型90%性能，大模型金字塔式信息汇聚模式探秘｜开源

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：2.5%KV缓存保持大模型90%性能，大模型金字塔式信息汇聚模式探秘｜开源
关键字：缓存,注意力,模型,性能,任务
文章来源：量子位
内容字数：0字

内容摘要：

蔡泽凡投稿量子位 | 公众号 QbitAI用KV缓存加速大模型的显存瓶颈，终于迎来突破。
北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案，只用2.5%的KV cache，就能保持大模型90%的性能。
这下再也不用担心KV占用的显存容量过高，导致显卡不够用了。
该方法名为PyramidKV，顾名思义，在KV缓存压缩的过程中融入了金字塔型的信息汇聚方式。
在内存受限的情况下，PyramidKV表现非常出色，既保留了长上下文理解能力，又显著减少了内存使用。
目前，PyramidKV相关代码已经在GitHub开源。
引入金字塔信息汇聚方式随着模型尺寸的增大，推理需要的时间越来越多。KV cache作为推理加速的关键技术，通过缓存之前的解码步骤中计算出的Transformer的K和V矩阵减少后续解码时间。
但是，随着序列长度增大，需要缓存的KV cache会快速增长，占用大量显存。针对这一问题，之前的工作设计策略是对KV cache进行压缩。
实际上，长文本的推理加速和显存节省作为一个重要的话题，这涉及到广泛的大模型下游应用，比如检索增强生成（Retrieval-Augment

原文链接：2.5%KV缓存保持大模型90%性能，大模型金字塔式信息汇聚模式探秘｜开源