参与开源的还有阿里云、华为存储、面壁智能、趋境科技等
Kimi底层推理架构Mooncake开源
近日,Kimi底层推理架构Mooncake正式宣布开源,该架构承载了Kimi线上80%以上的流量。此次开源由月之暗面Kimi与清华大学等机构联合发布,采用分阶段的方式逐步开放高性能KVCache多级缓存Mooncake Store的实现,并兼容各类推理引擎及底层存储/传输资源。
1. Mooncake的核心技术
Mooncake系统基于KVCache中心的解耦架构,分离了预填充集群与解码集群,充分利用了GPU集群中的CPU、DRAM和SSD资源。其调度程序旨在平衡整体吞吐量与延迟相关的服务级别目标(SLO)。在流量高峰期,Mooncake通过早期拒绝策略和预测未来负载的方法来有效应对超载问题。
2. 提升推理性能
根据论文实验结果,Mooncake在某些模拟场景中可实现高达525%的吞吐量提升,同时遵守SLO标准。在实际工作负载下,Mooncake使Kimi能够处理超过75%的请求。许欣然表示,目前该系统承担了Kimi线上80%以上的流量,极大提升了用户体验并降低了运营成本。
3. 开源项目的前景
为了加速Mooncake技术框架的应用与推广,Kimi联合多家机构发布了开源项目,参与方包括AISoft、阿里云、华为存储等。Mooncake项目将为大模型时代构建新的高性能内存语义存储标准接口,鼓励更多企业与研究机构共同探索高效的模型推理系统架构创新。
4. 结论
Mooncake的开源标志着在大模型推理技术领域的一个重要进展,未来有望推动整个行业向更高效的推理平台发展。开发者和研究者可以通过GitHub获取Mooncake的相关资源,参与到这一创新项目中。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...