KTransformers

KTransformers – 清华开源的大语言模型推理优化框架

KTransformers是清华大学KVCache.AI团队与趋境科技共同推出的开源项目,旨在提升大语言模型的推理性能,同时降低对硬件的要求。该项目基于GPU和CPU的异构计算策略,利用MoE架构的稀疏特性,使得在仅有24GB显存的单张显卡上也能顺利运行DeepSeek-R1和V3的671B满血版模型,预处理速度可高达286 tokens/s,推理生成速度可达14 tokens/s。通过引入基于计算强度的卸载策略、高性能算子和CUDA Graph优化等技术,KTransformers显著提高了推理效率。

KTransformers是什么

KTransformers是由清华大学KVCache.AI团队与趋境科技合作开发的开源项目,旨在优化大规模语言模型的推理速度,并降低用户的硬件要求。该项目采用GPU/CPU异构计算的方法,结合MoE架构的稀疏性,在仅需24GB显存的单张显卡上成功运行DeepSeek-R1和V3的671B满血版模型,达到最高286 tokens/s的预处理速度和14 tokens/s的推理生成速度。项目通过计算强度的卸载策略、高性能算子和CUDA Graph优化等技术手段,有效提升了推理性能。

KTransformers

KTransformers的主要功能

  • 支持超大模型的本地推理:仅需24GB显存的单张显卡即可运行671B参数的DeepSeek-R1等超大模型,打破了传统硬件的限制。
  • 显著提升推理速度:预处理速度可达到最高286 tokens/s,推理生成速度高达14 tokens/s。
  • 兼容多种模型和算子:支持DeepSeek系列及其它MoE架构模型,提供灵活的模板注入框架,允许用户切换量化策略和内核替换,以满足不同的优化需求。
  • 降低硬件门槛:大幅减少大模型的显存需求,使得普通用户和中小团队能够在消费级硬件上运行千亿级参数模型,实现“家庭化”部署。
  • 支持长序列任务:整合Intel AMX指令集,CPU预填充速度可达286 tokens/s,相比传统方案快28倍,将长序列任务的处理时间从“分钟级”缩短至“秒级”。

KTransformers的技术原理

  • MoE架构:将稀疏的MoE矩阵卸载到CPU/DRAM进行处理,稠密部分则保留在GPU上,大幅降低了显存需求。
  • 卸载策略:根据计算强度将任务分配至GPU和CPU:计算强度高的任务(如MLA算子)优先分配至GPU,而计算强度低的任务则分配至CPU。
  • 高性能算子优化
    • CPU端:采用llamafile作为CPU内核,结合多线程、任务调度和负载均衡等优化,提升了CPU推理效率。
    • GPU端:引入Marlin算子,专门针对量化矩阵计算进行优化,相较于传统库(如Torch)实现了3.87倍的加速。
  • CUDA Graph优化:利用CUDA Graph减少Python调用的开销,降低CPU/GPU之间的通信断点,实现高效的异构计算协同。每次解码仅需一次完整的CUDA Graph调用,显著提升了推理性能。
  • 量化与存储优化:采用4bit量化技术,进一步压缩模型的存储需求,使得671B参数的模型仅需24GB显存。同时优化KV缓存的大小,减少存储开销。
  • 模板注入框架:提供基于YAML的模板注入框架,支持用户灵活切换量化策略和内核替换等优化方式,以适应不同的应用场景。

KTransformers的项目地址

KTransformers的应用场景

  • 个人开发与中小团队:在消费级硬件上运行大模型,进行文本生成、问答系统等开发,降低开发成本。
  • 长序列任务:高效处理长文本、代码分析等任务,实现处理时间从分钟级缩短到秒级。
  • 企业级应用:本地部署大模型,用于智能客服、内容推荐等,节省云服务费用。
  • 学术研究:在普通硬件上探索和优化MoE架构模型,加速研究的进展。
  • 教育与培训:作为教学工具,帮助学生实践大模型的应用,理解相关的优化技术。
阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...