手机跑大模型提速4-5倍！微软亚研院开源新技术，有CPU就行

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：手机跑大模型提速4-5倍！微软亚研院开源新技术，有CPU就行
关键字：模型,范式,精度,性能,矩阵
文章来源：量子位
内容字数：0字

内容摘要：

微软亚洲研究院投稿量子位 | 公众号 QbitAI有CPU就能跑大模型，性能甚至超过NPU/GPU！
没错，为了优化模型端侧部署，微软亚洲研究院提出了一种新技术——T-MAC。
这项技术主打性价比，不仅能让端侧模型跑得更快，而且资源消耗量更少。
咋做到的？？
在CPU上高效部署低比特大语言模型一般来说，要想在手机、PC、树莓派等端侧设备上使用大语言模型，我们需要解决存储和计算问题。
常见的方法是模型量化，即将模型的参数量化到较低的比特数，比如4比特、3比特甚至更低，这样模型所需的存储空间和计算资源就会减少。
不过这也意味着，在执行推理时，需要进行混合精度的矩阵乘法运算（mpGEMM），即用低精度的权重和高精度的激活向量进行计算。
然而，现有的系统和硬件并不原生支持这种混合精度的矩阵乘法，因此它们通常需要将低精度的权重转换回高精度，这个过程叫做反量化(dequantization)。
但这种方法不仅效率低，而且当比特数进一步降低时，并不能带来性能上的提升。
对此，新技术T-MAC采用基于查找表（LUT）的计算范式，无需反量化，直接支持混合精度矩阵乘。
这样，T-MAC不仅提高了推理性能

原文链接：手机跑大模型提速4-5倍！微软亚研院开源新技术，有CPU就行