AAAI 2025 | 大模型推理加速新范式：加速比高达3.51倍、成本降至1/3

AIGC动态1年前 (2025)发布机器之心

翼支付全新「增强半自回归投机解码框架」。

原标题：AAAI 2025 | 大模型推理加速新范式：加速比高达3.51倍、成本降至1/3
文章来源：机器之心
内容字数：6782字

中国电信翼支付AAAI 2025论文：Falcon大模型推理加速框架

本文总结了中国电信翼支付发表在AAAI 2025上的论文《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》的核心内容。该论文提出了一种名为Falcon的增强型半自回归投机解码框架，显著提升了大型语言模型(LLMs)的推理速度。

1. 研究背景：LLMs推理速度瓶颈

大型语言模型在各种任务中表现出色，但其自回归(AR)解码方式导致推理速度慢、计算开销大。投机解码(Speculative Decoding)方法应运而生，它使用轻量级的Draft Model预先生成候选Token，再由原始LLM进行验证，从而实现并行解码，提升效率。然而，现有的AR和SAR Draft策略都存在不足：AR Draft并行性差，SAR Draft的Token接受率低。

2. Falcon框架：增强半自回归投机解码

为了解决上述问题，翼支付提出了Falcon框架。它包含三个主要组件：Embedding Layer、LM-Head和半自回归解码Head。Falcon的核心在于：

Coupled Sequential Glancing Distillation (CSGD)： 通过将真实Token和隐藏状态重新注入解码过程，提高SAR Draft Model的Token接受率，增强了对Token间关系的理解。
Custom-Designed Decoding Tree (CDT)： 允许Draft Model一次前向传播生成多个Token，并支持多次前向传播，有效提升了LLM对Token的接受率，加快了推理速度。它采用了一种特殊的因果掩码，允许模型访问同一block内的Token及之前的连续Token。

Falcon的架构图清晰地展示了这三个组件的交互方式以及CSGD和CDT方法在其中的作用。

3. 实验结果：显著的加速效果

实验结果表明，Falcon在多个数据集和模型上都取得了优异的性能，实现了约2.91-3.51倍的加速比，将推理成本降低到约原来的三分之一。

4. 业务应用：落地翼支付多个业务

Falcon技术已应用于翼支付的大模型产品InsightAI平台，并服务于数字人客服、借钱-翼小橙、人力-翼点通、财务-翼小财等多个业务。

5. 总结：突破LLMs推理瓶颈

Falcon框架通过CSGD和CDT的巧妙结合，有效解决了LLMs推理速度瓶颈问题。它在提升Draft Model准确率、采样效率和LLM验证效率方面取得了显著进展，为大模型的实际应用提供了强有力的支撑。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 大模型推理加速 # 模型压缩 # 神经网络加速 # 稀疏推理 # 量化训练

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AAAI 2025 | 大模型推理加速新范式：加速比高达3.51倍、成本降至1/3

翼支付全新「增强半自回归投机解码框架」。

中国电信翼支付AAAI 2025论文：Falcon大模型推理加速框架

1. 研究背景：LLMs推理速度瓶颈

2. Falcon框架：增强半自回归投机解码

3. 实验结果：显著的加速效果

4. 业务应用：落地翼支付多个业务

5. 总结：突破LLMs推理瓶颈

联系作者

o1也会「想太多」？腾讯AI Lab与上海交大揭秘o1模型过度思考问题

独家丨前微软亚研院视觉专家胡瀚加入腾讯，负责混元多模态大模型

相关文章

暂无评论