聊聊大模型推理中的分离式推理

AIGC动态2个月前发布 算法邦
21 0 0

聊聊大模型推理中的分离式推理

AIGC动态欢迎阅读

原标题:聊聊大模型推理中的分离式推理
关键字:解读,华为,分布式,阶段,问题
文章来源:算法邦
内容字数:0字

内容摘要:


原文:https://zhuanlan.zhihu.com/p/706469785
一开始本文叫做“聊聊大模型推理中的存储优化”的,但是发布之后感觉还是要叫分离式推理更好,虽然我本来是想写存储优化的,存储优化太大了,还是聚焦一下。存储优化是大模型推理中非常重要的一个环节。我在聊聊大模型推理服务中的优化问题(https://zhuanlan.zhihu.com/p/677650022)中对一部分论文进行了解读,主要包括 Efficient Memory Management for Large Language Model Serving with PagedAttention(也就是vllm)等方法,最近正好和几篇热点论文再拓展阅读一下,例如月之暗面 KIMI chat 的 Mooncake 。
存储管理,包括计算芯片缓存、显存、内存甚至磁盘,都可以算在内,因为不管是对离线的参数、缓存,还是对在线的数据搬运、数据复用,都属于存储管理。这篇笔记会更加侧重于如何优化当前大模型自回归特点下的 KVCache 在内存和显存中的摆放位置、管理、检索、传输、预测等等,目标则是为了从整体上提高服务的


原文链接:聊聊大模型推理中的分离式推理

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...