AIGC动态欢迎阅读
原标题:清华、智谱AI团队:Loss才是涌现的关键,而非模型参数|论文分享
关键字:模型,报告,性能,指标,能力
文章来源:人工智能学家
内容字数:4118字
内容摘要:
来源:GLM大模型
作者:GLM技术团队
大语言模型中的涌现能力(Emergent Ability)研究指出,伴随着模型参数的增大会出现能力涌现。但过去的观察却发现:1)小模型也可以在涌现出的能力上有较高的表现;2)用于衡量这些能力的指标存在非连续性。
为了更深刻地理解这个问题,我们训练了30多个不同模型参数和数据规模的语言模型,并评估了他们在 12 个英文和中文数据集上的表现。我们观察到,涌现现象与 pre-training loss 有比较密切的关系。
基于这些观察,我们认为应当从 Pre-training Loss 的角度重新定义“涌现能力”:只有当 Pre-training Loss 低于某个阈值时,模型才具有该能力。论文链接:https://arxiv.org/abs/2403.15796
1. 数据集
我们研究了语言模型在12个下游任务上的表现与Pre-training Loss之间的关系。实验中评估的英文和中文数据集见下表。2. Pre-training Loss vs 性能
在第一个实验中,我们训练了三个参数为1.5B、6B和32B的模型。我们评估了训练过程中 chec
原文链接:清华、智谱AI团队:Loss才是涌现的关键,而非模型参数|论文分享
联系作者
文章来源:人工智能学家
作者微信:AItists
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...