Meta开源首个量化模型Llama 3.2：减少40%内存，效率提升2倍以上

AIGC动态欢迎阅读

原标题：Meta开源首个量化模型Llama 3.2：减少40%内存，效率提升2倍以上
关键字：侵权,模型,适配器,数据,权重
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

文章转载自公众号：AIGC开放社区，本文只做学术/技术分享，如有侵权，联系删文。
全球社交巨头Meta开源了首个轻量级量化版模型Llama 3.2，一共有10亿和30亿两种参数。
为了使该模型能在手机、平板、笔记本等移动设备上部署使用，Meta使用了带有LoRA适配器的量化感知训练和SpinQuant进行了大幅度性能优化，平均减少了41%的内存使用、减少56%的模型规模，但推理效率却提升了2—4倍。
例如，在一加12手机上，Llama 3.2的解码延迟平均提高了2.5倍，预填充延迟平均提高了4.2倍，而在三星的S24+、S22两款手机同样获得了类似的数据。开源地址：https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
在架构方面，Llama 3.2 1B和3B采用了标准的Transformer结构。但对所有变压器块中的线性层进行了特定的量化处理，采用4位组方式量化权重，并对激活进行8位每标记动态量化。
分类层则量化为8位每通道的权重和8位每标记的动态激活量化，同时使用了8位每通道量

原文链接：Meta开源首个量化模型Llama 3.2：减少40%内存，效率提升2倍以上