手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

AIGC动态4个月前发布 量子位
11 0 0

手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

AIGC动态欢迎阅读

原标题:手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行
关键字:模型,范式,精度,性能,矩阵
文章来源:量子位
内容字数:0字

内容摘要:


微软亚洲研究院 投稿量子位 | 公众号 QbitAI有CPU就能跑大模型,性能甚至超过NPU/GPU!
没错,为了优化模型端侧部署,微软亚洲研究院提出了一种新技术——T-MAC。
这项技术主打性价比,不仅能让端侧模型跑得更快,而且资源消耗量更少。
咋做到的??
在CPU上高效部署低比特大语言模型一般来说,要想在手机、PC、树莓派等端侧设备上使用大语言模型,我们需要解决存储和计算问题。
常见的方法是模型量化,即将模型的参数量化到较低的比特数,比如4比特、3比特甚至更低,这样模型所需的存储空间和计算资源就会减少。
不过这也意味着,在执行推理时,需要进行混合精度的矩阵乘法运算(mpGEMM),即用低精度的权重和高精度的激活向量进行计算。
然而,现有的系统和硬件并不原生支持这种混合精度的矩阵乘法,因此它们通常需要将低精度的权重转换回高精度,这个过程叫做反量化(dequantization)。
但这种方法不仅效率低,而且当比特数进一步降低时,并不能带来性能上的提升。
对此,新技术T-MAC采用基于查找表(LUT)的计算范式,无需反量化,直接支持混合精度矩阵乘。
这样,T-MAC不仅提高了推理性能


原文链接:手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...