颠覆性创新：XGrammar引擎助力LLM生成速度提升百倍，开销几近为零！

现在，大语言模型的结构化生成有了一个更加高效、灵活的引擎。

原标题：陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销
文章来源：智猩猩GenAI
内容字数：8316字

2024中国生成式AI大会将于12月5-6日在上海举行，主会场将举办大模型峰会和AI Infra峰会，分会场将进行端侧生成式AI、AI视频生成和具身智能的技术研讨会，欢迎报名参加。

针对目前大语言模型（LLM）在结构化生成上的效率问题，陈天奇团队提出了XGrammar，一个高效、灵活且可移植的结构化生成引擎。XGrammar的目标是实现灵活、零开销的结构化生成，支持多种格式如JSON和SQL。

传统的约束解码方法使用上下文无关语法（CFG）来过滤无效token，但效率不高。XGrammar通过字节级下推自动机（PDA）和自适应token掩码缓存显著提升了性能，能够将每个token的延迟降低100倍，并实现端到端LLM服务的速度提升80倍。

XGrammar利用预处理阶段生成的自适应token掩码缓存，加速运行时的掩码生成。此外，通过上下文扩展和持续性执行堆栈等技术，进一步提升了效率。研究者还进行了多项结构优化，如规则内联和下推自动机节点合并，以减少计算量。

在评估中，XGrammar在JSON模式下实现了3倍的加速，复杂语法下的加速更是超过100倍。XGrammar还被成功编译为WebAssembly，支持在多种平台上进行高性能的结构化生成，显示出了其广泛的应用潜力。

XGrammar的提出为大语言模型的结构化生成提供了新思路，通过多种优化显著提高了效率，展现了在生成式AI领域的重要应用价值。欢迎关注即将举办的2024中国生成式AI大会，共同探索更多前沿技术。

文章来源：智猩猩GenAI
作者微信：
作者简介：智猩猩旗下公众号之一，深入关注大模型与AI智能体，及时搜罗生成式AI技术产品。

文章版权归作者所有，未经允许请勿转载。

暂无评论...