Kimi论文自曝推理架构,80%流量都靠它承担

AIGC动态3个月前发布 量子位
18 0 0

Kimi论文自曝推理架构,80%流量都靠它承担

AIGC动态欢迎阅读

原标题:Kimi论文自曝推理架构,80%流量都靠它承担
关键字:节点,负载,缓存,知乎,策略
文章来源:量子位
内容字数:0字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI月之暗面和清华KVCache.ai团队的最新论文,首次揭秘了Kimi背后的推理架构!
要知道Kimi是国产大模型的当红炸子鸡,火到可以说从来没缺过流量,甚至还经常出现过载。
而随着论文的发布,这泼天的流量到底如何被Kimi接住的问题,也有了答案。
Kimi背后的推理架构名叫Mooncake(月饼),主要特点是采取了分离式的设计方案。
而且,Mooncake在设计之时就考虑了可能出现的大流量场景,并针对这种情况专门研发。
在模拟场景下,Mooncake最高能带来525%的吞吐量增长,实际场景中也能多处理75%请求。
另据月之暗面工程副总裁许欣然的一篇知乎文章介绍,Kimi有80%以上的流量,都是由该系统承接。
从KV缓存出发,建造分布式系统整个Mooncake系统设计的核心,是围绕着KV缓存展开的。
(KV缓存用于存储键-值对(Key-Value Pairs),主要优势在于可以简单高效地访问和检索数据,在大模型当中可以提高推理速度并减少计算资源消耗。)
之所以这样做,是因为团队预计KV缓存的容量会长期保持高位,因此围绕KV缓存进行优化十


原文链接:Kimi论文自曝推理架构,80%流量都靠它承担

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...