今日最热论文:Scaling Law后继乏力,量化也不管用,AI大佬齐刷刷附议

AIGC动态1个月前发布 量子位
1 0 0

今日最热论文:Scaling Law后继乏力,量化也不管用,AI大佬齐刷刷附议

AIGC动态欢迎阅读

原标题:今日最热论文:Scaling Law后继乏力,量化也不管用,AI大佬齐刷刷附议
关键字:精度,模型,数据,损失,性能
文章来源:量子位
内容字数:0字

内容摘要:


一水 发自 凹非寺量子位 | 公众号 QbitAI几十万人关注,一发表即被行业大佬评为“这是很长时间以来最重要的论文”。
哈佛、斯坦福、MIT等团队的一项研究表明:训练的token越多,需要的精度就越高。
例如,Llama-3在不同数据量下(圆形8B、三角形70B、星星405B),随着数据集大小的增加,计算最优的精度也会增加。
换句话就是,对于大规模的训练任务,低精度的量化可能不再足够有效。
按照结论,对Scaling Law的遵循意味着我们需要保持更高精度,然而一直以来,人们通常会选择量化(将连续值或多精度值转换为较低精度)来节省计算资源。
一旦结论成立,GPU的设计和功能可能也需要相应调整,因为传统上,GPU的性能提升部分依赖于对低精度计算的优化。
正如艾伦AI研究所科学家所指出的:
这是很长时间以来最重要的论文。它用强有力的证据表明,我们正在达到量化的极限。论文得出的结论对整个领域以及GPU的未来有着广泛的影响。
与此同时,研究得出了两个重要结论:
如果量化是在后训练阶段进行的,那么更多的预训练数据最终可能反而有害;
在高(BF16)和下一代(FP4)精度下进行预训练可能都是次优


原文链接:今日最热论文:Scaling Law后继乏力,量化也不管用,AI大佬齐刷刷附议

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...