吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了
关键字：缓存,报告,张量,系统,基数
文章来源：机器之心
内容字数：5919字

内容摘要：

机器之心报道
机器之心编辑部大型语言模型 (LLM) 越来越多地用于需要多个链式生成调用、高级 prompt 技术、控制流以及与外部环境交互的复杂任务。然而，用于编程和执行这些应用程序的现有高效系统存在着明显的缺陷。
现在，开源社区的研究者们面向 LLM 提出了一种结构化生成语言（Structured Generation Language）——SGLang。SGLang 能够增强与 LLM 的交互，通过联合设计后端运行时系统和前端语言，使 LLM 更快、更可控。机器学习领域知名学者、CMU 助理教授陈天奇还转发了这项研究。总的来说，SGLang 的贡献主要包括：
在后端，研究团队提出了 RadixAttention，这是一种跨多个 LLM 生成调用的 KV 缓存（KV cache）复用技术，自动且高效。
在前端，研究团队开发了一种嵌入 Python 的、灵活的域指定（domain-specific）语言来控制生成过程。该语言可以在解释器模式或编译器模式下执行。
后端前端组件协同工作，可提高复杂 LLM 程序的执行和编程效率。
该研究使用 SGLang 实现了常见的 LLM 工作负载，

原文链接：吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了