至高 1.8 倍无损加速!互补量化方案的投机加速

至高 1.8 倍无损加速!互补量化方案的投机加速

AIGC动态欢迎阅读

原标题:至高 1.8 倍无损加速!互补量化方案的投机加速
关键字:权重,精度,模型,方案,草稿
文章来源:夕小瑶科技说
内容字数:0字

内容摘要:


夕小瑶科技说 原创作者 | Juntao Zhao等本文作者来自香港大学和哈尔滨工业大学。其中共同第一作者分别为来自香港大学Netexplo实验室的博士生Juntao Zhao、Sheng Wang,来自哈尔滨工业大学的本科生Wenhao Lu。本文的指导老师分别为香港大学的Chuan Wu教授和Lingpeng Kong教授。
量化(Quantization)已经被广泛采用来加速推理并减少大语言模型(LLMs)的内存消耗。虽然激活-权重(Activation-weight)联合量化通过低精度内核加速了推理过程,但我们发现它在多步推理任务中性能严重下降,效果不佳。
Activation-weight 联合量化方法我们结合量化和投机推理,提出了一种新型量化范式,称为 Qspec,它无缝集成了两种互补的量化方案用于投机推理。通过近乎无成本的执行切换,Qspec 使用低精度、快速的激活-权重(Activation-weight)量化起草token,并通过高精度仅权重(Weight only)量化验证这些token,有效结合了两种量化方案的优点。
Qspec方法与高精度量化方法相比,Qspec


原文链接:至高 1.8 倍无损加速!互补量化方案的投机加速

联系作者

文章来源:夕小瑶科技说
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...