3倍生成速度还降内存成本，超越Medusa2的高效解码框架终于来了

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：3倍生成速度还降内存成本，超越Medusa2的高效解码框架终于来了
关键字：模型,轨迹,报告,序列,目标
文章来源：机器之心
内容字数：9364字

内容摘要：

机器之心报道
编辑：亚鹂高效解码n -token序列，CLLMs+Jacobi解码框架。‍‍‍‍‍‍
传统上，大型语言模型（LLMs）被认为是顺序解码器，逐个解码每个token。
来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器，并介绍了一种新的并行解码器族，称为一致性大语言模型（CLLMs），能够通过在每个推断步骤中高效地解码一个n -token序列来降低推断延迟。
在此篇论文中，研究表明：「模仿人类在头脑中形成完整句子后逐字表达的认知过程，可以通过简单地微调预训练的LLMs来有效地学习。」
具体而言，CLLMs通过将任何随机初始化的n -token序列映射到尽可能少的步骤中，产生与自回归（AR）解码相同结果，来进行并行解码的训练。
实验结果表明，使用该研究团队所提出的方法获得的CLLMs非常有效，在生成速度上显示出该方法获得了2.4倍至3.4倍的改进，与其他快速推断技术如Medusa2和Eagle相媲美甚至更好，且在推断时不需要额外的内存成本来容纳辅助模型组件。论文名称：《CLLMs：Consistency Large Langu

原文链接：3倍生成速度还降内存成本，超越Medusa2的高效解码框架终于来了