从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐
关键字：模型,定律,能力,研究者,性能
文章来源：机器之心
内容字数：5549字

内容摘要：

机器之心报道
编辑：小舟、陈萍在 AI 领域，扩展定律（Scaling laws）是理解 LM 扩展趋势的强大工具，其为广大研究者提供了一个准则，该定律在理解语言模型的性能如何随规模变化提供了一个重要指导。
但不幸的是，扩展分析在许多基准测试和后训练研究中并不常见，因为大多数研究人员没有计算资源来从头开始构建扩展法则，并且开放模型的训练尺度太少，无法进行可靠的扩展预测。
来自斯坦福大学、多伦多大学等机构的研究者提出了一种替代观察法：可观察的扩展定律（Observational Scaling Laws），其将语言模型 (LM) 的功能与跨多个模型系列的下游性能联系起来，而不是像标准计算扩展规律那样仅在单个系列内。
该方法绕过了模型训练，而是从基于大约 80 个公开可用的模型上建立扩展定律。但这又引出了另一个问题，从多个模型族构建单一扩展定律面临巨大的挑战，原因在于不同模型之间的训练计算效率和能力存在很大差异。
尽管如此，该研究表明，这些变化与一个简单的、广义的扩展定律是一致的，在这个定律中，语言模型性能是低维能力空间（low-dimensional capability space）的

原文链接：从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐