今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

AIGC动态欢迎阅读

原标题：今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议
关键字：精度,模型,数据,损失,性能
文章来源：量子位
内容字数：0字

内容摘要：

一水发自凹非寺量子位 | 公众号 QbitAI几十万人关注，一发表即被行业大佬评为“这是很长时间以来最重要的论文”。
哈佛、斯坦福、MIT等团队的一项研究表明：训练的token越多，需要的精度就越高。
例如，Llama-3在不同数据量下（圆形8B、三角形70B、星星405B），随着数据集大小的增加，计算最优的精度也会增加。
换句话就是，对于大规模的训练任务，低精度的量化可能不再足够有效。
按照结论，对Scaling Law的遵循意味着我们需要保持更高精度，然而一直以来，人们通常会选择量化（将连续值或多精度值转换为较低精度）来节省计算资源。
一旦结论成立，GPU的设计和功能可能也需要相应调整，因为传统上，GPU的性能提升部分依赖于对低精度计算的优化。
正如艾伦AI研究所科学家所指出的：
这是很长时间以来最重要的论文。它用强有力的证据表明，我们正在达到量化的极限。论文得出的结论对整个领域以及GPU的未来有着广泛的影响。
与此同时，研究得出了两个重要结论：
如果量化是在后训练阶段进行的，那么更多的预训练数据最终可能反而有害；
在高（BF16）和下一代（FP4）精度下进行预训练可能都是次优

原文链接：今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议