AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3

翼支付全新「增强半自回归投机解码框架」。

AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3

原标题:AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3
文章来源:机器之心
内容字数:6782字

中国电信翼支付AAAI 2025论文:Falcon大模型推理加速框架

本文总结了中国电信翼支付发表在AAAI 2025上的论文《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》的核心内容。该论文提出了一种名为Falcon的增强型半自回归投机解码框架,显著提升了大型语言模型(LLMs)的推理速度。

1. 研究背景:LLMs推理速度瓶颈

大型语言模型在各种任务中表现出色,但其自回归(AR)解码方式导致推理速度慢、计算开销大。投机解码(Speculative Decoding)方法应运而生,它使用轻量级的Draft Model预先生成候选Token,再由原始LLM进行验证,从而实现并行解码,提升效率。然而,现有的AR和SAR Draft策略都存在不足:AR Draft并行性差,SAR Draft的Token接受率低。

2. Falcon框架:增强半自回归投机解码

为了解决上述问题,翼支付提出了Falcon框架。它包含三个主要组件:Embedding Layer、LM-Head和半自回归解码Head。Falcon的核心在于:

  1. Coupled Sequential Glancing Distillation (CSGD): 通过将真实Token和隐藏状态重新注入解码过程,提高SAR Draft Model的Token接受率,增强了对Token间关系的理解。
  2. Custom-Designed Decoding Tree (CDT): 允许Draft Model一次前向传播生成多个Token,并支持多次前向传播,有效提升了LLM对Token的接受率,加快了推理速度。它采用了一种特殊的因果掩码,允许模型访问同一block内的Token及之前的连续Token。

Falcon的架构图清晰地展示了这三个组件的交互方式以及CSGD和CDT方法在其中的作用。

3. 实验结果:显著的加速效果

实验结果表明,Falcon在多个数据集和模型上都取得了优异的性能,实现了约2.91-3.51倍的加速比,将推理成本降低到约原来的三分之一。

4. 业务应用:落地翼支付多个业务

Falcon技术已应用于翼支付的大模型产品InsightAI平台,并服务于数字人客服、借钱-翼小橙、人力-翼点通、财务-翼小财等多个业务。

5. 总结:突破LLMs推理瓶颈

Falcon框架通过CSGD和CDT的巧妙结合,有效解决了LLMs推理速度瓶颈问题。它在提升Draft Model准确率、采样效率和LLM验证效率方面取得了显著进展,为大模型的实际应用提供了强有力的支撑。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...