IndexCache

IndexCache – 清华联合智谱推出的稀疏注意力加速技术

IndexCache，一项由清华大学与智谱 AI 团队倾力打造的尖端稀疏注意力加速技术，旨在攻克 DeepSeek 稀疏注意力（DSA）架构中索引器计算效率低下的顽疾。它通过巧妙地跨层复用已计算的索引信息，有效规避了不必要的冗余计算，从而实现显著的性能飞跃。

IndexCache 概览

IndexCache 并非简单的性能优化，而是对 DSA 核心计算流程的一次深刻洞察与革新。研究发现，在 DSA 模型中，相邻计算层所选取的 top-k token 之间存在高达 70% 至 100% 的惊人重叠率。这一现象揭示了巨大的优化空间。基于此，IndexCache 引入了“全量层”与“共享层”的概念。全量层承担着计算并缓存最新索引的任务，而共享层则可以直接利用前一个全量层缓存的索引，无需重复计算。这种机制能够削减高达 75% 的索引器计算量，在处理 200K token 的超长上下文场景下，能够实现预填充速度 1.82 倍、解码速度 1.48 倍的惊人提升，并且在模型性能上几乎不打折扣。该技术已在拥有 300 亿参数的模型以及 7440 亿参数的 GLM-5 模型上得到了充分验证，证明了其强大的通用性和可扩展性。

IndexCache 的核心功能亮点

跨层索引的智能复用：充分利用相邻层 top-k 索引间 70%-100% 的高相似度，使得共享层能够直接继承全量层的计算成果，从而避免了重复劳动，大幅提升了效率。
索引器开销的性降低：通过仅保留四分之一的索引器计算能力，即可维持模型的优异性能，成功消除了 75% 的冗余计算负担。
推理速度的质的飞跃：在 200K token 的超长上下文环境中，预填充速度提升 1.82 倍，解码速度提升 1.48 倍，极大地缩短了用户等待响应的时间。
零额外内存占用的优势：IndexCache 的索引复用机制仅需一个简单的条件判断即可实现，无需分配额外的 GPU 显存，对硬件资源友好。
灵活多样的部署策略：提供了两种部署方案：一种是无需额外训练的“无训练方案”，通过贪心搜索算法智能地确定最优的层模式；另一种是“训练感知方案”，通过多层蒸馏损失来优化索引器参数，使其更好地适应共享层的需求。
生产级应用的坚实验证：该技术已成功应用于 300 亿参数模型和 7440 亿参数的 GLM-5 模型，并支持 SGLang 和 vLLM 等主流推理框架，为大规模生产部署奠定了基础。

IndexCache 的技术精髓解析

跨层索引相似性的深刻洞察：通过精密的分析，研究团队发现 DSA 模型相邻层的索引器输出的 top-k token 集合高度相似，平均重叠率在 70% 至 100% 之间，这直接揭示了大量索引计算的冗余性。
计算层的角色划分机制：IndexCache 将模型层巧妙地划分为两类：一类是“全量层”（Full Layer），它们保留了原有的索引器，负责计算并缓存最新的 top-k 索引；另一类是“共享层”（Shared Layer），它们不再运行自身的索引器，而是直接借用最近一个全量层所缓存的索引信息，用于执行稀疏注意力计算。
动态模式选择的智能策略：对于已经训练好的模型，IndexCache 采用基于校准数据的贪心搜索算法，逐层尝试将层转换为共享层，并评估其对模型输出的影响，从而保留至关重要的层作为全量层。对于需要从头训练的场景，则引入了多层蒸馏损失，使每个全量层的索引器能够同时服务其后多个共享层的计算需求。
推理流程的极致优化：在模型推理过程中，每层仅增加一个精巧的条件判断。根据预设的模式，系统会在计算新的索引与复用缓存索引之间进行智能切换，从而实现了索引器的跨层共享，而无需修改模型原有架构或增加额外的存储资源。

IndexCache 的关键信息与使用要求

研发机构：由清华大学与智谱 AI 联合开发，汇聚了顶尖的学术与产业资源。
解决痛点：直击 DeepSeek 稀疏注意力在长上下文场景下索引器计算效率低下（在 200K token 时占据预填充时间高达 81%）的核心问题。
核心原理：基于相邻层 top-k 索引之间 70%-100% 的高重叠率，通过跨层复用机制大幅削减冗余计算。
加速成效：通过保留约四分之一的索引器计算量，即可实现预填充速度 1.82 倍、解码速度 1.48 倍的显著提升。
性能影响：在模型性能方面几乎无损，部分推理任务甚至表现出细微的性能提升。
验证模型：已在 300 亿参数的 DSA 模型以及 7440 亿参数的 GLM-5 模型上得到有效验证。
硬件需求：需要 NVIDIA GPU（例如 H100），但无需额外的显存开销，能够复用标准 DSA 的内存空间。
软件环境：支持 SGLang 或 vLLM 推理框架，并提供了现成的补丁，可直接应用于 DeepSeek-V3.2、GLM-5 等主流模型。
无训练部署方案：适用于已训练完成的 DSA 模型，只需准备少量校准数据运行贪心搜索，即可确定最优的层模式。

IndexCache 的核心竞争力

卓越的加速性能：在 200K token 的上下文长度下，预填充速度提升 1.82 倍，解码速度提升 1.48 倍，极大地缩短了用户等待响应的时间。
无损的性能表现：即便削减了 75% 的索引器计算，模型质量几乎不受影响，部分任务甚至略有性能提升。
零额外的资源消耗：仅需一个条件分支即可实现索引复用，不会增加 GPU 显存占用，充分利用了标准 DSA 已分配的内存。
便捷的集成体验：提供 SGLang 和 vLLM 的补丁，无需修改模型架构，可直接部署于 DeepSeek-V3.2、GLM-5 等热门模型。
高度的部署灵活性：支持无训练和训练感知两种方案，能够适应已训练模型和从头训练的各种场景，索引器保留比例可灵活调整。
强大的生产级验证能力：已在 7440 亿参数的 GLM-5 超大模型上得到有效验证，具备大规模部署的成熟能力。

IndexCache 的项目入口

GitHub 仓库：https://github.com/THUDM/IndexCache
arXiv 技术论文：https://arxiv.org/pdf/2603.12201

IndexCache 与同类竞品的横向比较

对比维度	IndexCache	原生 DSA	Full Attention Anchor 方法
核心机制	跨层复用索引器输出的 top-k 索引	每层运行轻量级索引器	依赖全注意力锚点层复用索引
计算开销	去除 75% 索引器，预填充加速 1.82 倍	200K 上下文下索引器占 81% 预填充时间	需保留全注意力层，计算成本较高
适用场景	完全消除全注意力的 DSA 架构	标准 DSA 部署	需全注意力作为锚点的架构
实现复杂度	一个 if/else 分支，零额外显存	标准实现	需设计锚点层策略
训练要求	支持无训练部署或训练感知优化	需完整训练	通常需联合训练
生产验证	744B GLM-5 验证	DeepSeek-V3 生产应用	多为中小规模实验

IndexCache 的应用场景拓展

长文档深度解析：尤其适用于论文研读、法律合同审阅等需要处理海量文本信息的场景。在 200K token 的上下文长度下，预填充速度提升 1.82 倍，显著缩短了用户获取首个响应的时间。
复杂多步推理任务：如数学证明、代码生成等需要精密逻辑链条的任务，解码速度提升 1.48 倍，加速了思维链的生成过程。
智能 Agent 工作流：为多轮工具调用、自主任务规划等 Agentic 流程提供动力，降低了长上下文推理的成本，支持更复杂、更智能的交互。
检索增强生成（RAG）系统：在大规模知识库检索增强生成场景下，能够高效处理海量检索结果的长上下文整合与生成任务。
实时交互式服务：适用于客服机器人、智能助手等在线服务，能够显著提升吞吐量并降低服务成本，从而改善终端用户体验。

阅读原文