清华发布Temporal Scaling Law,解释时间尺度对大模型表现的影响

清华发布Temporal Scaling Law,解释时间尺度对大模型表现的影响

AIGC动态欢迎阅读

原标题:清华发布Temporal Scaling Law,解释时间尺度对大模型表现的影响
关键字:模型,损失,本文,位置,数据
文章来源:夕小瑶科技说
内容字数:5518字

内容摘要:


夕小瑶科技说 原创作者 | Axe_越众所周知,
语言模型调参!
预训练语言模型调参!!
预训练大语言模型调参!!!
简直就是一个指数级递增令人炸毛的事情,小编也常常在做梦,要是只训练几步就知道现在的超参数或者数据配比能不能行,那该有多好。
但现在,有一篇工作似乎正在令小编的梦想成为现实,那就是清华大学提出的Temporal Scaling Law。根据他们提出的这条规则,便可以通过当前训练步来准确预测未来训练步损失(loss)的下降情况,从而可以极大程度上提高各位炼丹师的效率。
此外,正所谓“重剑无锋,大巧不工”,这篇研究还发现在训练过程中并不需要针对token position添加权重,默认的预训练模式就足以达到非常好的效果。
论文标题Temporal Scaling Law for Large Language Models
论文链接https://arxiv.org/pdf/2404.17785
Scaling Law在介绍本文工作之前,先来回顾一下2020年由Kaplan等人首次提出的Scaling Law,即对于生成式Transformer模型,测试损失与模型大小、数据集大


原文链接:清华发布Temporal Scaling Law,解释时间尺度对大模型表现的影响

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...