KTransformers

KTransformers – 清华开源的大语言模型推理优化框架

KTransformers是清华大学KVCache.AI团队与趋境科技共同推出的开源项目，旨在提升大语言模型的推理性能，同时降低对硬件的要求。该项目基于GPU和CPU的异构计算策略，利用MoE架构的稀疏特性，使得在仅有24GB显存的单张显卡上也能顺利运行DeepSeek-R1和V3的671B满血版模型，预处理速度可高达286 tokens/s，推理生成速度可达14 tokens/s。通过引入基于计算强度的卸载策略、高性能算子和CUDA Graph优化等技术，KTransformers显著提高了推理效率。

KTransformers是什么

KTransformers是由清华大学KVCache.AI团队与趋境科技合作开发的开源项目，旨在优化大规模语言模型的推理速度，并降低用户的硬件要求。该项目采用GPU/CPU异构计算的方法，结合MoE架构的稀疏性，在仅需24GB显存的单张显卡上成功运行DeepSeek-R1和V3的671B满血版模型，达到最高286 tokens/s的预处理速度和14 tokens/s的推理生成速度。项目通过计算强度的卸载策略、高性能算子和CUDA Graph优化等技术手段，有效提升了推理性能。

KTransformers

KTransformers的主要功能

支持超大模型的本地推理：仅需24GB显存的单张显卡即可运行671B参数的DeepSeek-R1等超大模型，打破了传统硬件的限制。
显著提升推理速度：预处理速度可达到最高286 tokens/s，推理生成速度高达14 tokens/s。
兼容多种模型和算子：支持DeepSeek系列及其它MoE架构模型，提供灵活的模板注入框架，允许用户切换量化策略和内核替换，以满足不同的优化需求。
降低硬件门槛：大幅减少大模型的显存需求，使得普通用户和中小团队能够在消费级硬件上运行千亿级参数模型，实现“家庭化”部署。
支持长序列任务：整合Intel AMX指令集，CPU预填充速度可达286 tokens/s，相比传统方案快28倍，将长序列任务的处理时间从“分钟级”缩短至“秒级”。

KTransformers的技术原理

MoE架构：将稀疏的MoE矩阵卸载到CPU/DRAM进行处理，稠密部分则保留在GPU上，大幅降低了显存需求。
卸载策略：根据计算强度将任务分配至GPU和CPU：计算强度高的任务（如MLA算子）优先分配至GPU，而计算强度低的任务则分配至CPU。
高性能算子优化：
- CPU端：采用llamafile作为CPU内核，结合多线程、任务调度和负载均衡等优化，提升了CPU推理效率。
- GPU端：引入Marlin算子，专门针对量化矩阵计算进行优化，相较于传统库（如Torch）实现了3.87倍的加速。
CUDA Graph优化：利用CUDA Graph减少Python调用的开销，降低CPU/GPU之间的通信断点，实现高效的异构计算协同。每次解码仅需一次完整的CUDA Graph调用，显著提升了推理性能。
量化与存储优化：采用4bit量化技术，进一步压缩模型的存储需求，使得671B参数的模型仅需24GB显存。同时优化KV缓存的大小，减少存储开销。
模板注入框架：提供基于YAML的模板注入框架，支持用户灵活切换量化策略和内核替换等优化方式，以适应不同的应用场景。