XGrammar：智能化结构化生成引擎提升文本创作效率与质量

AI工具2年前 (2024)发布 AI工具集

XGrammar是由陈天奇团队开发的一款开源软件库，旨在为大型语言模型（LLM）提供高效、灵活且可移植的结构化数据生成能力。它基于上下文无关语法（CFG）来定义数据结构，支持递归组合以表示复杂的格式，特别适合生成JSON、SQL等结构化数据。XGrammar通过字节级下推自动机优化了CFG的解释过程，大幅降低每个token的延迟，实现高达百倍的加速，几乎没有额外开销。

XGrammar是什么

XGrammar是一个高效的开源软件库，由陈天奇团队推出，专为大型语言模型（LLM）设计，提供灵活且可移植的结构化数据生成能力。它依赖于上下文无关语法（CFG），能够通过递归组合来表示复杂的数据结构，适合生成如JSON和SQL等格式的数据。通过字节级下推自动机，XGrammar优化了CFG的解析过程，显著减少每个token的延迟，实现了百倍的加速效果，并几乎没有额外的开销。此外，XGrammar集成了多种系统优化技术，如自适应token掩码缓存和上下文扩展，以提高掩码生成的速度并减少预处理的时间。

XGrammar的主要功能

高效的结构化生成：支持上下文无关语法（CFG），可以定义和生成符合特定格式（如JSON、SQL）的结构化数据。
灵活性：基于CFG的递归规则，能够灵活地表示复杂的结构，适应多种结构化数据的需求。
无开销集成：XGrammar与LLM推理引擎设计紧密结合，实现了在LLM推理中零开销的结构化生成。
快速执行：经过系统优化，显著提升了结构化生成的执行速度，相比于最新技术，每个token的延迟减少多达100倍。
跨平台兼容：具备最小且可移植的C++后端，方便集成到多种环境和框架中。
自适应token掩码缓存：在预处理阶段生成，加快运行时的掩码生成速度。

XGrammar的技术原理

字节级下推自动机（PDA）：通过字节级PDA解析CFG，支持每个字符的边缘包含多个字节，能够处理不规则的token边界，支持包含sub-UTF8字符的token。
预处理与运行时优化：在预处理阶段生成自适应token掩码缓存，加速运行时的掩码生成。
上下文无关与相关token区分：区分上下文无关token和上下文相关token，预先计算PDA中每个位置的上下文无关token的有效性，并将其存储在自适应token掩码缓存中。
语法编译：基于语法编译过程，预先计算掩码中部分token，加速掩码生成。
算法与系统优化：包括上下文扩展、持续性执行堆栈和下推自动机结构优化等，进一步提升掩码生成速度并减少预处理时间。
掩码生成与LLM推理重叠：将CPU上的掩码生成过程与GPU上的LLM推理过程并行化，消除约束解码的开销。