大模型Scaling Law同样适用于下游任务性能？斯坦福、谷歌最新研究揭秘

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：大模型Scaling Law同样适用于下游任务性能？斯坦福、谷歌最新研究揭秘
关键字：数据,得分,任务,研究者,下游
文章来源：机器之心
内容字数：10473字

内容摘要：

机器之心报道
编辑：蛋酱、张倩大模型的成功很大程度上要归因于 Scaling Law 的存在，这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系，为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。
以往的大量研究集中于上游复杂度或交叉熵损失的 Scaling law（即在预训练数据上进行评估），但在实际应用中，模型通常要经历一个迁移学习的过程：首先在无监督数据上进行预训练，然后针对特定的下游任务（如编码或翻译）进行微调。
那么，Scaling Law 能不能用于预测下游任务性能？这个关键问题很大程度上仍未得到解答。在最近的一项工作中，斯坦福大学和谷歌的研究者探索了迁移学习的 Scaling Law。论文标题：Scaling Laws for Downstream Task Performance of Large Language Models
论文链接：https://arxiv.org/pdf/2402.04177.pdf
任务性能指的是准确率和 BLEU 得分等衡量任务相关的指标，这些指标不同于交叉熵等下一个 token 预测指标。研究者聚焦于机器翻译任务

原文链接：大模型Scaling Law同样适用于下游任务性能？斯坦福、谷歌最新研究揭秘