Kimi 背后的长文本大模型推理实践：以 KVCache 为中心的分离式推理架构

AIGC动态1年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：Kimi 背后的长文本大模型推理实践：以 KVCache 为中心的分离式推理架构
关键字：上下文,缓存,模型,阶段,用户
文章来源：AI前线
内容字数：0字

内容摘要：

演讲嘉宾｜唐飞虎
编辑｜蔡芳芳
策划｜AICon 全球人工智能开发与应用大会
在不久前举办的 AICon 全球人工智能开发与应用大会上，月之暗面高级研发工程师、开发者关系负责人唐飞虎发表了专题演讲“长文本大模型推理实践——以 KVCache 为中心的分离式推理架构”，分享介绍 Kimi 智能助手背后的推理加速方案，以及该方案在设计时所需要考虑的指标和在真实生产环境中部署的表现。
在 10 月 18 -19 日即将召开的 QCon 上海站上，我们专门策划了【大模型基础设施与算力优化】专场，并邀请到月之暗面推理系统负责人何蔚然进一步分享 Mooncake 分离式推理架构创新与实践，同时微软亚洲研究院软件开发工程师姜慧强将分享《长文本 LLMs 推理优化：动态稀疏性算法的应用实践》，还有更多大模型训练推理的一手实践案例尽在本专题。欲了解更多精彩内容，可访问大会官网：https://qcon.infoq.cn/2024/shanghai/schedule
以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。
提到 Kimi，相信在座的各位都有所耳闻。Kimi 智能助手在多个平台上

原文链接：Kimi 背后的长文本大模型推理实践：以 KVCache 为中心的分离式推理架构