AIGC动态欢迎阅读
内容摘要:
原文:https://zhuanlan.zhihu.com/p/706469785
一开始本文叫做“聊聊大模型推理中的存储优化”的,但是发布之后感觉还是要叫分离式推理更好,虽然我本来是想写存储优化的,存储优化太大了,还是聚焦一下。存储优化是大模型推理中非常重要的一个环节。我在聊聊大模型推理服务中的优化问题(https://zhuanlan.zhihu.com/p/677650022)中对一部分论文进行了解读,主要包括 Efficient Memory Management for Large Language Model Serving with PagedAttention(也就是vllm)等方法,最近正好和几篇热点论文再拓展阅读一下,例如月之暗面 KIMI chat 的 Mooncake 。
存储管理,包括计算芯片缓存、显存、内存甚至磁盘,都可以算在内,因为不管是对离线的参数、缓存,还是对在线的数据搬运、数据复用,都属于存储管理。这篇笔记会更加侧重于如何优化当前大模型自回归特点下的 KVCache 在内存和显存中的摆放位置、管理、检索、传输、预测等等,目标则是为了从整体上提高服务的
原文链接:聊聊大模型推理中的分离式推理
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...