首次用元数据加速预训练
原标题:陈丹琦团队降本又来了:数据砍掉三分之一,性能却完全不减
文章来源:量子位
内容字数:3463字
陈丹琦团队新研究:元数据加速大模型预训练,数据量减少三分之一性能不减
普林斯顿大学陈丹琦团队提出了一种名为MeCo(Metadata Conditioning then Cooldown)的新型大模型预训练方法,通过引入元数据,在减少训练数据量的同时,提升了模型性能。该方法在不同模型规模(600M-8B)和数据源上均取得了显著效果,平均性能与使用240B标记的基线相当,而数据量却减少了33%。
1. MeCo方法的核心:元数据调节与冷却
MeCo方法包含两个阶段:预训练阶段和冷却阶段。在预训练阶段(占90%),将元数据(例如文档URL的绝对域名)与文档拼接进行训练。研究人员只计算文档标记的交叉熵损失,忽略元数据标记的损失,因为实验表明这有助于提升下游性能。冷却阶段(占10%)使用标准数据进行训练,并继承预训练阶段的学习率和优化器状态。此阶段的关键改进包括:禁用跨文档Attention以加速训练并提升性能;确保每个序列从一个新文档开始,避免数据浪费并提升性能。
2. 实验结果与贡献
实验使用了Llama Transformer架构和Llama-3 tokenizer,在四种不同模型规模(600M、1.6B、3B和8B)上进行了测试。结果表明,MeCo显著优于标准预训练方法,在减少33%数据量的情况下,达到了相同的平均下游性能。该团队总结了MeCo的三大贡献:
- 显著加速预训练:MeCo使1.6B模型在少用33%训练数据的情况下,达到与标准预训练模型相同的平均下游性能,并在不同模型规模和数据源下都展现出一致的优势。
- 开启语言模型训练新方法:MeCo能够根据元数据引导模型学习,例如使用特定网站的URL可以提升特定任务的性能,例如常识性问题解答或降低毒性生成。
- MeCo设计选择的消解和兼容性:研究证明MeCo与不同类型的元数据兼容,元数据的主要作用是按来源对文档进行分类。
3. 团队成员及背景
该论文的主要作者来自普林斯顿大学自然语言处理小组,包括博士生高天宇(一作,清华大学本科毕业,清华特奖获得者)、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及教授陈丹琦。团队成员在自然语言处理和机器学习领域拥有丰富的经验。
4. 总结
MeCo方法通过巧妙地利用元数据,有效地提高了大模型预训练的效率,并降低了训练成本。这项研究为大模型的训练和应用提供了新的思路,具有重要的学术意义和应用价值。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破