现在,大语言模型的结构化生成有了一个更加高效、灵活的引擎。
原标题:陈天奇团队LLM结构化生成新引擎XGrammar:百倍加速、近零开销
文章来源:智猩猩GenAI
内容字数:8316字
2024中国生成式AI大会(上海站)预告
2024中国生成式AI大会将于12月5-6日在上海举行,主会场将举办大模型峰会和AI Infra峰会,分会场将进行端侧生成式AI、AI视频生成和具身智能的技术研讨会,欢迎报名参加。
新型结构化生成引擎:XGrammar
针对目前大语言模型(LLM)在结构化生成上的效率问题,陈天奇团队提出了XGrammar,一个高效、灵活且可移植的结构化生成引擎。XGrammar的目标是实现灵活、零开销的结构化生成,支持多种格式如JSON和SQL。
约束解码的挑战
传统的约束解码方法使用上下文无关语法(CFG)来过滤无效token,但效率不高。XGrammar通过字节级下推自动机(PDA)和自适应token掩码缓存显著提升了性能,能够将每个token的延迟降低100倍,并实现端到端LLM服务的速度提升80倍。
XGrammar的实现与优化
XGrammar利用预处理阶段生成的自适应token掩码缓存,加速运行时的掩码生成。此外,通过上下文扩展和持续性执行堆栈等技术,进一步提升了效率。研究者还进行了多项结构优化,如规则内联和下推自动机节点合并,以减少计算量。
评估结果与跨平台部署
在评估中,XGrammar在JSON模式下实现了3倍的加速,复杂语法下的加速更是超过100倍。XGrammar还被成功编译为WebAssembly,支持在多种平台上进行高性能的结构化生成,显示出了其广泛的应用潜力。
总结
XGrammar的提出为大语言模型的结构化生成提供了新思路,通过多种优化显著提高了效率,展现了在生成式AI领域的重要应用价值。欢迎关注即将举办的2024中国生成式AI大会,共同探索更多前沿技术。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。