CPU反超NPU，llama.cpp生成速度翻5倍！LLM端侧部署新范式T-MAC开源

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：CPU反超NPU，llama.cpp生成速度翻5倍！LLM端侧部署新范式T-MAC开源
关键字：权重,模型,范式,矩阵,精度
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRST 好困
【新智元导读】T-MAC是一种创新的基于查找表（LUT）的方法，专为在CPU上高效执行低比特大型语言模型（LLMs）推理而设计，无需权重反量化，支持混合精度矩阵乘法（mpGEMM），显著降低了推理开销并提升了计算速度。‍
为增强设备上的智能性，在边缘设备部署大型语言模型（LLMs）成为了一个趋势，比如微软的Windows 11 AI + PC。
目前部署的大语言模型多会量化到低比特。然而，低比特LLMs在推理过程中需要进行低精度权重和高精度激活向量的混合精度矩阵乘法（mpGEMM）。现有的系统由于硬件缺乏对mpGEMM的原生支持，不得不将权重反量化以进行高精度计算。这种间接的方式导致了显著的推理开销，并且无法随着比特数进一步降低而获得加速。
为此，微软亚洲研究院、中国科学技术大学、中国科学院大学的研究人员联合开发了T-MAC。T-MAC采用基于查找表（LUT）的计算范式，无需反量化，直接支持混合精度矩阵乘，其高效的推理性能以及其统一且可扩展的特性为在资源受限的边缘设备上实际部署低比特LLMs铺平了道路。代码：https://github.com/mic

原文链接：CPU反超NPU，llama.cpp生成速度翻5倍！LLM端侧部署新范式T-MAC开源