LLM吞吐量提高2-4倍，模型越大效果越好！UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

AIGC动态2年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：LLM吞吐量提高2-4倍，模型越大效果越好！UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

文章来源：新智元

内容字数：12737字

内容摘要：新智元报道编辑：LRS【新智元导读】吞吐量上不去有可能是内存背锅！无需修改模型架构，减少内存浪费就能提高吞吐量！‍虽然大型语言模型（LLM）的性能表现足够惊艳，但每次接收用户请求时都需要耗费大量显存和计算资源，一旦请求数量超出预期，就极有可能面临ChatGPT刚发布时的宕机、排队、高延迟等窘境。想要打造一个高吞吐量的LLM服务，就需要模型在一个批次内处理尽可能多的请求，不过现有的系统大多在每次处理…

原文链接：点此阅读原文：LLM吞吐量提高2-4倍，模型越大效果越好！UC伯克利、斯坦福等开源高效内存管理机制PagedAttention