Meta开源首个量化模型Llama 3.2:减少40%内存,效率提升2倍以上

Meta开源首个量化模型Llama 3.2:减少40%内存,效率提升2倍以上

AIGC动态欢迎阅读

原标题:Meta开源首个量化模型Llama 3.2:减少40%内存,效率提升2倍以上
关键字:侵权,模型,适配器,数据,权重
文章来源:智猩猩GenAI
内容字数:0字

内容摘要:


文章转载自公众号:AIGC开放社区,本文只做学术/技术分享,如有侵权,联系删文。
全球社交巨头Meta开源了首个轻量级量化版模型Llama 3.2,一共有10亿和30亿两种参数。
为了使该模型能在手机、平板、笔记本等移动设备上部署使用,Meta使用了带有LoRA适配器的量化感知训练和SpinQuant进行了大幅度性能优化,平均减少了41%的内存使用、减少56%的模型规模,但推理效率却提升了2—4倍。
例如,在一加12手机上,Llama 3.2的解码延迟平均提高了2.5倍,预填充延迟平均提高了4.2倍,而在三星的S24+、S22两款手机同样获得了类似的数据。开源地址:https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
在架构方面,Llama 3.2 1B和3B采用了标准的Transformer结构。但对所有变压器块中的线性层进行了特定的量化处理,采用4位组方式量化权重,并对激活进行8位每标记动态量化。
分类层则量化为8位每通道的权重和8位每标记的动态激活量化,同时使用了8位每通道量


原文链接:Meta开源首个量化模型Llama 3.2:减少40%内存,效率提升2倍以上

联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...