Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

AIGC动态欢迎阅读

原标题：Scaling Laws终结，量化无用，AI大佬都在审视这篇论文
关键字：精度,模型,权重,数据,定律
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
作者：泽南、小舟研究表明，你训练的 token 越多，你需要的精度就越高。最近几天，AI 社区都在讨论同一篇论文。
UCSD 助理教授 Dan Fu 说它指明了大模型量化的方向。CMU 教授 Tim Dettmers 则直接说：它是很长一段时间以来最重要的一篇论文。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 也转发了他的帖子。Tim Dettmers 表示，可以说，人工智能的大部分进步都来自计算能力的提升，而（在最近）这主要依赖于低精度路线的加速（32- > 16 – > 8 位）。现在看来，这一趋势即将结束。再加上摩尔定律的物理限制，大模型的大规模扩展可以说要到头了。
例如，英伟达最新的 AI 计算卡 Blackwell 将拥有出色的 8 位能力，并在硬件层面实现逐块量化。这将使 8 位训练变得像从 FP16 切换到 BF16 一样简单。然而，正如我们从新论文中看到的那样，对于很多大模型的训练来说，8 位是不够的。
与其他模型相比，Llama 405B 没有得到太多应用的主要原因是它体量太大了，运行 405B 模型进行推理非常麻烦。

原文链接：Scaling Laws终结，量化无用，AI大佬都在审视这篇论文