3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了

AIGC动态4个月前发布 机器之心
15 0 0

3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了

AIGC动态欢迎阅读

原标题:3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了
关键字:模型,轨迹,报告,序列,目标
文章来源:机器之心
内容字数:9364字

内容摘要:


机器之心报道
编辑:亚鹂高效解码n -token序列,CLLMs+Jacobi解码框架。‍‍‍‍‍‍
传统上,大型语言模型(LLMs)被认为是顺序解码器,逐个解码每个token。
来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器,并介绍了一种新的并行解码器族,称为一致性大语言模型(CLLMs),能够通过在每个推断步骤中高效地解码一个n -token序列来降低推断延迟。
在此篇论文中,研究表明:「模仿人类在头脑中形成完整句子后逐字表达的认知过程,可以通过简单地微调预训练的LLMs来有效地学习。」
具体而言,CLLMs通过将任何随机初始化的n -token序列映射到尽可能少的步骤中,产生与自回归(AR)解码相同结果,来进行并行解码的训练。
实验结果表明,使用该研究团队所提出的方法获得的CLLMs非常有效,在生成速度上显示出该方法获得了2.4倍至3.4倍的改进,与其他快速推断技术如Medusa2和Eagle相媲美甚至更好,且在推断时不需要额外的内存成本来容纳辅助模型组件。论文名称:《CLLMs:Consistency Large Langu


原文链接:3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...