大模型推理速度飙升3.6倍，「美杜莎」论文来了，贾扬清：最优雅加速推理方案之一

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：大模型推理速度飙升3.6倍，「美杜莎」论文来了，贾扬清：最优雅加速推理方案之一
关键字：模型,主干,研究者,候选者,注意力
文章来源：机器之心
内容字数：7525字

内容摘要：

机器之心报道
编辑：杜伟、小舟去年，在加速大语言模型推理层面，我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今，关于 Medusa 终于有了完整技术论文，还提供了新的版本。如你我所知，在大型语言模型（LLM）的运行逻辑中，随着规模大小的增加，语言生成的质量会随着提高。不过，这也导致了推理延迟的增加，从而对实际应用构成了重大挑战。
从系统角度来看，LLM 推理主要受内存限制，主要延迟瓶颈源于加速器的内存带宽而非算术计算。这一瓶颈是自回归解码的顺序性所固有的，其中每次前向传递都需要将完整的模型参数从高带宽内存传输到加速器缓存。该过程仅生成了单个的 token，没有充分利用现代加速器的算术计算潜力，导致了效率低下。
为了解决这一问题，加速 LLM 推理的方法被提出，既可以增加解码过程的算术强度（FLOPs 与总数据移动的比率），也能减少解码步骤数量。这类方法以推测解码（speculative decoding）为代表，使用较小的草稿（draft）模型在每一步生成 token 序列，然后通过较大的原始模型进行细化以获得可接受的延续。不过获得

原文链接：大模型推理速度飙升3.6倍，「美杜莎」论文来了，贾扬清：最优雅加速推理方案之一