如何通过KV稀疏实现对vLLM的1.5倍加速

AIGC动态欢迎阅读

原标题：如何通过KV稀疏实现对vLLM的1.5倍加速
关键字：模型,算法,性能,特性,策略
文章来源：AI前线
内容字数：0字

内容摘要：

作者 | PPIO 算法专家张青青前言近一年以来，自 H2O 起，关于 KV 稀疏的论文便百花齐放，而在实际应用中不得不面临的一个问题便是学术论文与实际应用之间的巨大鸿沟，例如，像 vLLM 等框架采用的是 PagedAttention 等分页内存，与大部分的稀疏算法都无法与之兼容或者本身性能不如 PagedAttention，类似的种种问题，导致了稀疏算法无法真正的在生产中应用。
我们参考 KV 稀疏这一方向最近一年的学术论文，结合 vLLM 框架本身的优化特性，例如 Continuous Batching、FlashAttention、PagedAttention 等，对 VLLM 框架进行基于 KV 稀疏的修改，最终基于线上最常用的模型、参数与硬件，与 sota 版本的推理框架进行对比，实现了 1.5 倍的推理加速。
说到 KV 稀疏之前，不得不说的便是 LLM 的 Massive Activations 特性，即在 LLM 中有很少数的激活值明显活跃于其他的激活，有时候高于其他激活 100,000 倍以上，换而言之，即少部分的 token 起到了至关重要的作用，因而可以通过

原文链接：如何通过KV稀疏实现对vLLM的1.5倍加速