港大北航等1bit大模型引热议，IEEE刊物评“解决AI能源需求”！作者亲自解读在此

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：港大北航等1bit大模型引热议，IEEE刊物评“解决AI能源需求”！作者亲自解读在此
关键字：权重,解读,报告,模型,研究人员
文章来源：量子位
内容字数：0字

内容摘要：

BiLLM团队发自凹非寺量子位 | 公众号 QbitAI极限量化，把每个参数占用空间压缩到1.1bit！
IEEE Spectrum专栏，一种名为BiLLM的训练后量化（PTQ）方法火了。
通俗来讲，随着LLM参数规模越来越大，模型计算的内存和资源也面临着更大的挑战。如何把模型变得小巧经济实惠，能塞进手机等设备中？
BiLLM解决的正是这样的一个问题。它使用1bit来近似网络中的大多数参数，使用2bit来表示一些对性能最有影响的权重。
实验测试中，研究人员对OPT模型、Llama系列进行了二值化。
在OPT模型家族上，BiLLM以1.1bit的平均权重大小实现了目前最极限的LLM训练后压缩；在Llama系列模型上，BiLLM在1.08bit下的表现甚至超过了使用全精度的OPT-66B模型。
效率方面，BiLLM能够在单个GPU上半小时内完成7B LLM的二值化。
BiLLM发布当天，便引发了网友对大模型优化的热议，有网友就表示：
量化不是没有代价。Llama3模型的量化效果比Llama2模型要差，量化过程中的质量损失更大。
直觉是，一个训练不足的模型受到量化的影响较小，因为其训练过

原文链接：港大北航等1bit大模型引热议，IEEE刊物评“解决AI能源需求”！作者亲自解读在此