聊聊大模型推理中的分离式推理

AIGC动态1年前 (2024)发布算法邦

聊聊大模型推理中的分离式推理

AIGC动态欢迎阅读

原标题：聊聊大模型推理中的分离式推理
关键字：解读,华为,分布式,阶段,问题
文章来源：算法邦
内容字数：0字

内容摘要：

原文：https://zhuanlan.zhihu.com/p/706469785
一开始本文叫做“聊聊大模型推理中的存储优化”的，但是发布之后感觉还是要叫分离式推理更好，虽然我本来是想写存储优化的，存储优化太大了，还是聚焦一下。存储优化是大模型推理中非常重要的一个环节。我在聊聊大模型推理服务中的优化问题（https://zhuanlan.zhihu.com/p/677650022）中对一部分论文进行了解读，主要包括 Efficient Memory Management for Large Language Model Serving with PagedAttention（也就是vllm）等方法，最近正好和几篇热点论文再拓展阅读一下，例如月之暗面 KIMI chat 的 Mooncake 。
存储管理，包括计算芯片缓存、显存、内存甚至磁盘，都可以算在内，因为不管是对离线的参数、缓存，还是对在线的数据搬运、数据复用，都属于存储管理。这篇笔记会更加侧重于如何优化当前大模型自回归特点下的 KVCache 在内存和显存中的摆放位置、管理、检索、传输、预测等等，目标则是为了从整体上提高服务的

原文链接：聊聊大模型推理中的分离式推理