单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了

AIGC动态2个月前发布 量子位
4 0 0

单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了

AIGC动态欢迎阅读

原标题:单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了
关键字:模型,算法,工具包,精度,团队
文章来源:量子位
内容字数:0字

内容摘要:


模型工具链团队 投稿量子位 | 公众号 QbitAI单卡搞定Llama 3.1(405B),最新大模型压缩工具来了!
最近Llama-3.1登上开源顶峰,但其最强的405B版本模型900多GB的内存需求,对资源构成了更加苛刻的挑战。
北航、商汤、南洋理工等团队联合推出的大模型压缩工具与基准LLMC,能很好解决这一问题。
它使得一张80G A100即可完成Llama 3.1 405B的校准和评估,从而实现以超低成本进行量化。
它支持多种压缩算法、模型和推理后端,具有强大的扩展性和全方位的评估能力。
目前,研究团队已将使用方法放在GitHub主页上,戳文末链接即可获取。
Llama3.1 更大也更难压缩低比特量化是解决资源受限问题的通用技术之一。为此,相关研究人员运用了LLMC对Llama 3.1进行了量化压缩。
结果如表1所示,采用LLMC中的某些算法,例如QuaRot和AWQ等算法在70B和405B参数量的模型上,均能有效保持量化精度。而最为简单的“四舍五入”(Naive)算法在这些大规模模型上则表现出显著的精度下降,特别是在激活被量化的情况下。
该研究团队发现,Llama 3.1系列


原文链接:单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...