吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了

吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了

AIGC动态欢迎阅读

原标题:吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了
关键字:缓存,报告,张量,系统,基数
文章来源:机器之心
内容字数:5919字

内容摘要:


机器之心报道
机器之心编辑部大型语言模型 (LLM) 越来越多地用于需要多个链式生成调用、高级 prompt 技术、控制流以及与外部环境交互的复杂任务。然而,用于编程和执行这些应用程序的现有高效系统存在着明显的缺陷。
现在,开源社区的研究者们面向 LLM 提出了一种结构化生成语言(Structured Generation Language)——SGLang。SGLang 能够增强与 LLM 的交互,通过联合设计后端运行时系统和前端语言,使 LLM 更快、更可控。机器学习领域知名学者、CMU 助理教授陈天奇还转发了这项研究。总的来说,SGLang 的贡献主要包括:
在后端,研究团队提出了 RadixAttention,这是一种跨多个 LLM 生成调用的 KV 缓存(KV cache)复用技术,自动且高效。
在前端,研究团队开发了一种嵌入 Python 的、灵活的域指定(domain-specific)语言来控制生成过程。该语言可以在解释器模式或编译器模式下执行。
后端前端组件协同工作,可提高复杂 LLM 程序的执行和编程效率。
该研究使用 SGLang 实现了常见的 LLM 工作负载,


原文链接:吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...