DeepSeek的多头潜在注意力（MLA）和11种KV-Cache技巧演进大总结

AIGC动态7个月前发布智猩猩GenAI

715 0 0

总结11篇最近的研究论文，归纳三大类。

原标题：DeepSeek的多头潜在注意力（MLA）和11种KV-Cache技巧演进大总结
文章来源：智猩猩GenAI
内容字数：9138字

2025中国生成式AI大会预告及KV-Cache技术深度解析

2025中国生成式AI大会（北京站）即将于4月1日-2日举行，聚焦DeepSeek与大模型等前沿技术。本文将总结11篇最新研究论文，探讨KV-Cache如何优化大型语言模型（LLM）的文本生成速度。

1. 文本生成缓慢的原因：自注意力机制的计算瓶颈

大型语言模型的文本生成速度慢，主要源于自注意力机制。在生成每个新token时，模型需要重新计算所有先前token的上下文信息，计算成本随序列长度呈平方增长（O(n²)）。

2. KV缓存：巧妙的权衡

KV缓存通过预计算并存储每个token的键(key)和值(value)来解决这个问题。生成新token时，只需查找相关信息，将计算复杂度降低到线性(O(n))。但与此同时，KV缓存也增加了内存消耗。

3. 优化KV缓存的三大方法

为了解决KV缓存的内存问题，研究人员提出了三大类优化方法：

3.1 Token选择和修剪方法

1. Heavy-Hitter Oracle (H2O+)：识别并保留重要token，减少缓存大小。

2. StreamLLM+：利用注意力汇聚现象，保留初始token，处理最近上下文。

3. Value-Aware Token Pruning (VATP)：综合考虑注意力分数和值向量信息，进行token修剪。

3.2 后处理压缩技术

4. Adaptive KV Compression (FastGen)：根据运行时注意力模式自适应地选择压缩策略。

5. 动态内存压缩 (DMC+)：自适应地合并token，降低内存占用。

6. 范数基础的压缩：利用键嵌入范数与注意力分数的相关性进行压缩。

3.3 体系结构重设计

7. 多查询注意力 (MQA+)：共享键值头，减少缓存大小。

8. 分组查询注意力 (GQA+)：在MQA和传统多头注意力之间权衡。

9. 多头潜在注意力 (MLA)：使用低秩潜在压缩技术，减少KV缓存大小。

10. SnapKV：利用观察窗口识别注意力模式进行压缩。

11. 只缓存一次 (YOCO)：修改Transformer架构，优化缓存机制。

4. 结论

KV-Cache技术是优化LLM推理速度的关键。通过token选择、后处理压缩和架构重设计等方法，研究人员不断提升LLM的效率，使其在长上下文和资源受限的场景下也能良好运行。 KV-Cache仍然是一个活跃的研究领域，未来将有更多创新涌现。

联系作者

文章来源：智猩猩GenAI
作者微信：
作者简介：智猩猩旗下账号，专注于生成式人工智能，主要分享技术文章、论文成果与产品信息。

阅读原文

# AIGC动态 # DeepSeek模型 # KV缓存优化 # 多头潜在注意力 # 模型参数压缩 # 高效注意力机制

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

DeepSeek的多头潜在注意力（MLA）和11种KV-Cache技巧演进大总结

总结11篇最近的研究论文，归纳三大类。

2025中国生成式AI大会预告及KV-Cache技术深度解析

1. 文本生成缓慢的原因：自注意力机制的计算瓶颈

2. KV缓存：巧妙的权衡

3. 优化KV缓存的三大方法

3.1 Token选择和修剪方法

3.2 后处理压缩技术

3.3 体系结构重设计

4. 结论

联系作者

DPO-Shift：一个参数可控改变DPO分布，缓解似然偏移

谷歌开卷打工人！创始人让员工每天12小时，夺回AI地位！网友先怒了：像你一样在公司玩游戏吗？

相关文章

暂无评论

ChatGPT

玩虚拟模特？