GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况
关键字：模型,报告,算法,语言,目标
文章来源：机器之心
内容字数：5496字

内容摘要：

机器之心报道
机器之心编辑部推测解码（Speculative Decoding）是谷歌等机构在 2022 年发现的大模型推理加速方法。它可以在不损失生成效果前提下，获得 3 倍以上的加速比。GPT-4 泄密报告也提到 OpenAI 线上模型推理使用了它。针对如此妙的方法，香港理工大学、北京大学、MSRA 以及阿里共同推出了一篇关于推测解码的综述，帮助读者了解推测解码的前世今生和应用情况，值得一读。众所周知，大型语言模型（LLM）的推理通常需要使用自回归采样，这个推理过程相当缓慢。为了解决这个问题，推测解码（Speculative Decoding）已经成为 LLM 推理的一种新型采样方法。这种方法在每个采样步骤中，会先预测几个可能的 token，然后并行地验证是否准确。与自回归解码不同，推测解码能够单步解码多个 token，从而加速推理。
虽然推测解码可以大有作为，但也引出了一些需要进一步调研的关键问题。首先需要考虑如何选择或设计近似模型，以在推测准确性和生成效率之间取得平衡。其次，有必要考虑评估标准是否能够保持生成多样性和输出质量。最后，应仔细考虑对齐近似模型和目标大模型之间的推理

原文链接：GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况