颠覆性创新:XGrammar引擎助力LLM生成速度提升百倍,开销几近为零!

现在,大语言模型的结构化生成有了一个更加高效、灵活的引擎。

颠覆性创新:XGrammar引擎助力LLM生成速度提升百倍,开销几近为零!

原标题:陈天奇团队LLM结构化生成新引擎XGrammar:百倍加速近零开销
文章来源:智猩猩GenAI
内容字数:8316字

2024中国生成式AI大会(上海站)预告

2024中国生成式AI大会将于12月5-6日在上海举行,主会场将举办大模型峰会和AI Infra峰会,分会场将进行端侧生成式AI、AI视频生成和具身智能的技术研讨会,欢迎报名参加。

新型结构化生成引擎:XGrammar

针对目前大语言模型(LLM)在结构化生成上的效率问题,陈天奇团队提出了XGrammar,一个高效、灵活且可移植的结构化生成引擎。XGrammar的目标是实现灵活、零开销的结构化生成,支持多种格式如JSON和SQL。

约束解码的挑战

传统的约束解码方法使用上下文无关语法(CFG)来过滤无效token,但效率不高。XGrammar通过字节级下推自动机(PDA)和自适应token掩码缓存显著提升了性能,能够将每个token的延迟降低100倍,并实现端到端LLM服务的速度提升80倍。

XGrammar的实现与优化

XGrammar利用预处理阶段生成的自适应token掩码缓存,加速运行时的掩码生成。此外,通过上下文扩展和持续性执行堆栈等技术,进一步提升了效率。研究者还进行了多项结构优化,如规则内联和下推自动机节点合并,以减少计算量。

评估结果与跨平台部署

在评估中,XGrammar在JSON模式下实现了3倍的加速,复杂语法下的加速更是超过100倍。XGrammar还被成功编译为WebAssembly,支持在多种平台上进行高性能的结构化生成,显示出了其广泛的应用潜力。

总结

XGrammar的提出为大语言模型的结构化生成提供了新思路,通过多种优化显著提高了效率,展现了在生成式AI领域的重要应用价值。欢迎关注即将举办的2024中国生成式AI大会,共同探索更多前沿技术。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...