Kimi开源推理框架：仅用1小时，GitHub揽获1.2k星，揭秘其成功秘诀！

参与开源的还有阿里云、华为存储、面壁智能、趋境科技等

原标题：Kimi 开源底层推理框架，1小时GitHub揽星1.2k
文章来源：量子位
内容字数：3445字

近日，Kimi底层推理架构Mooncake正式宣布开源，该架构承载了Kimi线上80%以上的流量。此次开源由月之暗面Kimi与清华大学等机构联合发布，采用分阶段的方式逐步开放高性能KVCache多级缓存Mooncake Store的实现，并兼容各类推理引擎及底层存储/传输资源。

Mooncake系统基于KVCache中心的解耦架构，分离了预填充集群与解码集群，充分利用了GPU集群中的CPU、DRAM和SSD资源。其调度程序旨在平衡整体吞吐量与延迟相关的服务级别目标（SLO）。在流量高峰期，Mooncake通过早期拒绝策略和预测未来负载的方法来有效应对超载问题。

根据论文实验结果，Mooncake在某些模拟场景中可实现高达525%的吞吐量提升，同时遵守SLO标准。在实际工作负载下，Mooncake使Kimi能够处理超过75%的请求。许欣然表示，目前该系统承担了Kimi线上80%以上的流量，极大提升了用户体验并降低了运营成本。

为了加速Mooncake技术框架的应用与推广，Kimi联合多家机构发布了开源项目，参与方包括AISoft、阿里云、华为存储等。Mooncake项目将为大模型时代构建新的高性能内存语义存储标准接口，鼓励更多企业与研究机构共同探索高效的模型推理系统架构创新。

Mooncake的开源标志着在大模型推理技术领域的一个重要进展，未来有望推动整个行业向更高效的推理平台发展。开发者和研究者可以通过GitHub获取Mooncake的相关资源，参与到这一创新项目中。

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

文章版权归作者所有，未经允许请勿转载。

暂无评论...