LLM生成延迟降低50%！DeepSpeed团队发布FastGen：动态SplitFuse技术，提升2.3倍有效吞吐量

AIGC动态2年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：LLM生成延迟降低50%！DeepSpeed团队发布FastGen：动态SplitFuse技术，提升2.3倍有效吞吐量

文章来源：新智元

内容字数：23009字

内容摘要：新智元报道编辑：LRS【新智元导读】DeepSpeed-FastGen结合MII和DeepSpeed-Inference实现LLM高吞吐量文本生成。GPT-4和LLaMA这样的大型语言模型（LLMs）已在各个层次上成为了集成AI 的主流服务应用。从常规模型到文档摘要，从自动驾驶到各个软件中的Copilot功能，这些模型的部署和服务需求正在迅速增加。像DeepSpeed、PyTorch和其他几个框架可以在LLM训练期间实现良好的硬件利用率，但它们在与用户互动及处理开放式文本生成等任务时，受限于这些操作的计算密集度相对较低，现有系统往往在推理吞吐量上遇到瓶颈。为了解决这一问题，使用类似vLLM这样由PagedAttention驱动的框架或是Orca系统可以显著提高LLM推理的性能。然而，这些系统在面对长提示的工作负载时，依旧难以提供良好的服务质量。随着越来越多的模型（例如MPT-Story…

原文链接：点此阅读原文：LLM生成延迟降低50%！DeepSpeed团队发布FastGen：动态SplitFuse技术，提升2.3倍有效吞吐量