AIGC动态欢迎阅读
原标题:大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘
关键字:数据,得分,任务,研究者,下游
文章来源:机器之心
内容字数:10473字
内容摘要:
机器之心报道
编辑:蛋酱、张倩大模型的成功很大程度上要归因于 Scaling Law 的存在,这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系,为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。
以往的大量研究集中于上游复杂度或交叉熵损失的 Scaling law(即在预训练数据上进行评估),但在实际应用中,模型通常要经历一个迁移学习的过程:首先在无监督数据上进行预训练,然后针对特定的下游任务(如编码或翻译)进行微调。
那么,Scaling Law 能不能用于预测下游任务性能?这个关键问题很大程度上仍未得到解答。在最近的一项工作中,斯坦福大学和谷歌的研究者探索了迁移学习的 Scaling Law。论文标题:Scaling Laws for Downstream Task Performance of Large Language Models
论文链接:https://arxiv.org/pdf/2402.04177.pdf
任务性能指的是准确率和 BLEU 得分等衡量任务相关的指标,这些指标不同于交叉熵等下一个 token 预测指标。研究者聚焦于机器翻译任务
原文链接:大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...