大模型端侧 CPU 部署最高提效 6 倍！微软亚研院新开源项目 T-MAC 技术解析来了

AIGC动态1年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：大模型端侧 CPU 部署最高提效 6 倍！微软亚研院新开源项目 T-MAC 技术解析来了
关键字：比亚迪,华为,字节跳动,模型,范式
文章来源：AI前线
内容字数：0字

内容摘要：

为增强设备上的智能性，在边缘设备部署大型语言模型（LLMs）成为了一个趋势，比如微软的 Windows 11 AI + PC。目前部署的大语言模型多会量化到低比特。然而，低比特 LLMs 在推理过程中需要进行低精度权重和高精度激活向量的混合精度矩阵乘法（mpGEMM）。现有的系统由于硬件缺乏对 mpGEMM 的原生支持，不得不将权重反量化以进行高精度计算。这种间接的方式导致了显著的推理开销，并且无法随着比特数进一步降低而获得加速。
为此，微软亚洲研究院的研究员们开发了 T-MAC。T-MAC 采用基于查找表（LUT）的计算范式，无需反量化，直接支持混合精度矩阵乘，其高效的推理性能以及其统一且可扩展的特性为在资源受限的边缘设备上实际部署低比特 LLMs 铺平了道路。
此外，当前大模型的部署普遍依赖于专用加速器，如 NPU 和 GPU 等，而 T-MAC 可以摆脱专用加速器的依赖，仅利用 CPU 部署 LLMs，推理速度甚至能够超过同一片上的专用加速器，使 LLMs 可以部署在各类包括 PC、手机、树莓派等边缘端设备。T-MAC 现已开源。在 CPU 上高效部署
低比特大语言模型
T-MA

原文链接：大模型端侧 CPU 部署最高提效 6 倍！微软亚研院新开源项目 T-MAC 技术解析来了