Kimi开源推理框架:仅用1小时,GitHub揽获1.2k星,揭秘其成功秘诀!

参与开源的还有阿里云、华为存储、面壁智能、趋境科技等

Kimi开源推理框架:仅用1小时,GitHub揽获1.2k星,揭秘其成功秘诀!

原标题:Kimi开源底层推理框架,1小时GitHub揽星1.2k
文章来源:量子位
内容字数:3445字

Kimi底层推理架构Mooncake开源

近日,Kimi底层推理架构Mooncake正式宣布开源,该架构承载了Kimi线上80%以上的流量。此次开源由月之暗面Kimi与清华大学等机构联合发布,采用分阶段的方式逐步开放高性能KVCache多级缓存Mooncake Store的实现,并兼容各类推理引擎及底层存储/传输资源。

1. Mooncake的核心技术

Mooncake系统基于KVCache中心的解耦架构,分离了预填充集群与解码集群,充分利用了GPU集群中的CPU、DRAM和SSD资源。其调度程序旨在平衡整体吞吐量与延迟相关的服务级别目标(SLO)。在流量高峰期,Mooncake通过早期拒绝策略和预测未来负载的方法来有效应对超载问题。

2. 提升推理性能

根据论文实验结果,Mooncake在某些模拟场景中可实现高达525%的吞吐量提升,同时遵守SLO标准。在实际工作负载下,Mooncake使Kimi能够处理超过75%的请求。许欣然表示,目前该系统承担了Kimi线上80%以上的流量,极大提升了用户体验并降低了运营成本。

3. 开源项目的前景

为了加速Mooncake技术框架的应用与推广,Kimi联合多家机构发布了开源项目,参与方包括AISoft、阿里云、华为存储等。Mooncake项目将为大模型时代构建新的高性能内存语义存储标准接口,鼓励更多企业与研究机构共同探索高效的模型推理系统架构创新。

4. 结论

Mooncake的开源标志着在大模型推理技术领域的一个重要进展,未来有望推动整个行业向更高效的推理平台发展。开发者和研究者可以通过GitHub获取Mooncake的相关资源,参与到这一创新项目中。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...