颠覆传统：XGrammar引擎实现百倍加速与近零开销的性突破

现在，大语言模型的结构化生成有了一个更加高效、灵活的引擎。

颠覆传统：XGrammar引擎实现百倍加速与近零开销的革命性突破

原标题：陈天奇团队 LLM结构化生成新引擎XGrammar：百倍加速、近零开销
文章来源：机器之心
内容字数：7954字

随着大语言模型（LLM）的发展，结构化生成变得日益重要。陈天奇团队提出了XGrammar，一个高效、灵活且可移植的结构化生成引擎，以满足代码编写、外部工具调用和机器人控制等多种需求。

XGrammar是一个开源软件库，致力于提供灵活的结构化生成解决方案，支持多种格式（如JSON、SQL等）。其核心目标是高效地进行约束解码，克服上下文无关语法（CFG）在传统应用中的效率瓶颈。

约束解码通过过滤无效token来确保生成数据符合特定结构。然而，CFG的灵活性使得解码效率低下，尤其是在处理大词表时，计算开销显著增加。XGrammar通过改进算法和数据结构，显著提升了解码速度。

XGrammar采用字节级下推自动机（PDA）来处理CFG，并引入自适应token掩码缓存，提高了掩码生成的速度。通过将上下文无关token与上下文相关token分离，XGrammar能够在运行时快速生成大部分掩码，显著提升整体性能。

在与Llama-3.1模型的评估中，XGrammar在JSON模式下实现了高达3倍的加速，并在复杂的JSON用例中超过100倍的加速。整体运行时间低于40微秒，适用于低延迟LLM推理场景。

通过将XGrammar集成到端到端LLM推理框架中，研究显示其在TPOT和TTFT性能方面优于其他框架，整体速度提升达到80倍。有效的掩码生成与LLM推理的重叠计算进一步降低了延迟。

XGrammar能够在多种平台上运行，通过Emscripten编译为WebAssembly，并与WebLLM框架集成，展示了在移动设备和浏览器环境中的高效表现。

XGrammar代表了结构化生成技术的一个重要进展，其高效性和灵活性为未来的应用提供了强大的支持，尤其在端侧智能体的发展中具有广阔的前景。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...