推倒万亿参数大模型内存墙！万字长文：从第一性原理看神经网络量化

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：推倒万亿参数大模型内存墙！万字长文：从第一性原理看神经网络量化
关键字：格式,数字,权重,尾数,整数
文章来源：新智元
内容字数：14776字

内容摘要：

新智元报道编辑：桃子好困
【新智元导读】为了应对大模型不断复杂的推理和训练，英伟达、AMD、英特尔、谷歌、微软、Meta、Arm、高通、MatX以及Lemurian Labs，纷纷开始研发全新的硬件解决方案。从32位，到16位，再到8位，量化在加速神经⽹络⽅⾯发挥了巨⼤作⽤。
放眼一看，世界把所有的⽬光都聚焦在数字格式上。因为在过去的⼗年中，AI硬件效率的提⾼有很⼤⼀部分要归功于数字格式。
较低精度的数字格式，帮助推倒了数十亿参数模型的内存墙。
英伟达声称，过去10年，单芯⽚TOPS提升了足足1000倍，英伟达自身就加起来达16倍。相⽐之下，从28nm到5nm，⼯艺技术的改进仅为2.5倍！
Semianalysis的最新文章中，从数字格式的基本原理出发，深⼊探讨了神经⽹络量化的技术现状。
本⽂中，将介绍浮点与整数、电路设计注意事项、块浮点、MSFP、微缩格式、对数系统等内容，还会介绍量化和推理数字格式的差异，以及⾼精度与低精度训练方法。
此外，鉴于量化和精度损失带来的挑战，稳重还将讨论模型的下⼀步发展。
最后，文中将介绍英伟达、AMD、英特尔、谷歌、微软、Meta、Arm、高通、

原文链接：推倒万亿参数大模型内存墙！万字长文：从第一性原理看神经网络量化