清华、智谱AI团队：Loss才是涌现的关键，而非模型参数｜论文分享

AIGC动态1年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：清华、智谱AI团队：Loss才是涌现的关键，而非模型参数｜论文分享
关键字：模型,报告,性能,指标,能力
文章来源：人工智能学家
内容字数：4118字

内容摘要：

来源：GLM大模型
作者：GLM技术团队
大语言模型中的涌现能力（Emergent Ability）研究指出，伴随着模型参数的增大会出现能力涌现。但过去的观察却发现：1）小模型也可以在涌现出的能力上有较高的表现；2）用于衡量这些能力的指标存在非连续性。
为了更深刻地理解这个问题，我们训练了30多个不同模型参数和数据规模的语言模型，并评估了他们在 12 个英文和中文数据集上的表现。我们观察到，涌现现象与 pre-training loss 有比较密切的关系。
基于这些观察，我们认为应当从 Pre-training Loss 的角度重新定义“涌现能力”：只有当 Pre-training Loss 低于某个阈值时，模型才具有该能力。论文链接：https://arxiv.org/abs/2403.15796
1. 数据集
我们研究了语言模型在12个下游任务上的表现与Pre-training Loss之间的关系。实验中评估的英文和中文数据集见下表。2. Pre-training Loss vs 性能
在第一个实验中，我们训练了三个参数为1.5B、6B和32B的模型。我们评估了训练过程中 chec

原文链接：清华、智谱AI团队：Loss才是涌现的关键，而非模型参数｜论文分享