Scaling Laws终结,量化无用,AI大佬都在审视这篇论文

Scaling Laws终结,量化无用,AI大佬都在审视这篇论文

AIGC动态欢迎阅读

原标题:Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
关键字:精度,模型,权重,数据,定律
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
作者:泽南、小舟研究表明,你训练的 token 越多,你需要的精度就越高。最近几天,AI 社区都在讨论同一篇论文。
UCSD 助理教授 Dan Fu 说它指明了大模型量化的方向。CMU 教授 Tim Dettmers 则直接说:它是很长一段时间以来最重要的一篇论文。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 也转发了他的帖子。Tim Dettmers 表示,可以说,人工智能的大部分进步都来自计算能力的提升,而(在最近)这主要依赖于低精度路线的加速(32- > 16 – > 8 位)。现在看来,这一趋势即将结束。再加上摩尔定律的物理限制,大模型的大规模扩展可以说要到头了。
例如,英伟达最新的 AI 计算卡 Blackwell 将拥有出色的 8 位能力,并在硬件层面实现逐块量化。这将使 8 位训练变得像从 FP16 切换到 BF16 一样简单。然而,正如我们从新论文中看到的那样,对于很多大模型的训练来说,8 位是不够的。
与其他模型相比,Llama 405B 没有得到太多应用的主要原因是它体量太大了,运行 405B 模型进行推理非常麻烦。


原文链接:Scaling Laws终结,量化无用,AI大佬都在审视这篇论文

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...