月之暗面kimi底层推理系统方案揭秘

AIGC动态2个月前发布 算法邦
61 0 0

月之暗面kimi底层推理系统方案揭秘

AIGC动态欢迎阅读

原标题:月之暗面kimi底层推理系统方案揭秘
关键字:负载,实例,节点,缓存,阶段
文章来源:算法邦
内容字数:0字

内容摘要:


7月2日晚七点,「NVIDIA 机器人技术公开课」正式开讲,NVIDIA解决方案架构总监舒家明将以《NVIDIA Isaac 加速机器人3D视觉感知与机械臂轨迹规划》为主题进行直播讲解,欢迎扫码报名。太长不看版(作者大佬自己的在知乎碎碎念):
本论文与很多 Prefill/Decoding 分离的论文不同的是,这套方案已经在大规模集群上进行几个月的验证并证明了方案的有效性。目前这套系统承载了 Kimi 线上80% 以上的流量, 效果很好也为产品带来了更多的设计空间。这也是为什么一个 POC 写在所有业内论文之前的系统,直到今天才发布出来跟大家见面。
系统是需要跟随着应用快速变化的,同时也需要 硬件厂商 和 云厂商 早点接受新的理念才能跟上浪潮。发出这篇论文,主要是希望给各方提供一些信心,提供一些推理规模足够大场景下的必然优化思路。
趁这个机会,希望给各家硬件厂商和云厂商一些“暴论”
1.Mooncake 这类的存算分离策略会是一个长期趋势。
现在、立刻、马上真能省很多钱(毕竟不能公开规模和每日请求的 pattern,如果你说省不了那你都对)。
KVCache 的容量会长期保持高位,因此


原文链接:月之暗面kimi底层推理系统方案揭秘

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...