陈丹琦团队降本又来了：数据砍掉三分之一，性能却完全不减

首次用元数据加速预训练

陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

原标题：陈丹琦团队降本又来了：数据砍掉三分之一，性能却完全不减
文章来源：量子位
内容字数：3463字

陈丹琦团队新研究：元数据加速大模型预训练，数据量减少三分之一性能不减

普林斯顿大学陈丹琦团队提出了一种名为MeCo（Metadata Conditioning then Cooldown）的新型大模型预训练方法，通过引入元数据，在减少训练数据量的同时，提升了模型性能。该方法在不同模型规模（600M-8B）和数据源上均取得了显著效果，平均性能与使用240B标记的基线相当，而数据量却减少了33%。

1. MeCo方法的核心：元数据调节与冷却

MeCo方法包含两个阶段：预训练阶段和冷却阶段。在预训练阶段（占90%），将元数据（例如文档URL的绝对域名）与文档拼接进行训练。研究人员只计算文档标记的交叉熵损失，忽略元数据标记的损失，因为实验表明这有助于提升下游性能。冷却阶段（占10%）使用标准数据进行训练，并继承预训练阶段的学习率和优化器状态。此阶段的关键改进包括：禁用跨文档Attention以加速训练并提升性能；确保每个序列从一个新文档开始，避免数据浪费并提升性能。

2. 实验结果与贡献

实验使用了Llama Transformer架构和Llama-3 tokenizer，在四种不同模型规模（600M、1.6B、3B和8B）上进行了测试。结果表明，MeCo显著优于标准预训练方法，在减少33%数据量的情况下，达到了相同的平均下游性能。该团队总结了MeCo的三大贡献：

显著加速预训练：MeCo使1.6B模型在少用33%训练数据的情况下，达到与标准预训练模型相同的平均下游性能，并在不同模型规模和数据源下都展现出一致的优势。
开启语言模型训练新方法：MeCo能够根据元数据引导模型学习，例如使用特定网站的URL可以提升特定任务的性能，例如常识性问题解答或降低毒性生成。
MeCo设计选择的消解和兼容性：研究证明MeCo与不同类型的元数据兼容，元数据的主要作用是按来源对文档进行分类。

3. 团队成员及背景

该论文的主要作者来自普林斯顿大学自然语言处理小组，包括博士生高天宇（一作，清华大学本科毕业，清华特奖获得者）、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及教授陈丹琦。团队成员在自然语言处理和机器学习领域拥有丰富的经验。

4. 总结

MeCo方法通过巧妙地利用元数据，有效地提高了大模型预训练的效率，并降低了训练成本。这项研究为大模型的训练和应用提供了新的思路，具有重要的学术意义和应用价值。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # 低资源AI # 参数剪枝 # 模型压缩 # 知识蒸馏 # 高效推理

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

陈丹琦团队降本又来了：数据砍掉三分之一，性能却完全不减

首次用元数据加速预训练

陈丹琦团队新研究：元数据加速大模型预训练，数据量减少三分之一性能不减

1. MeCo方法的核心：元数据调节与冷却

2. 实验结果与贡献

3. 团队成员及背景

4. 总结

联系作者

Sam Altman六字预言：AI奇点将近，是机遇还是危机？

RTX5090震撼发布，国行16499元起，黄仁勋「美国队长」pose亮翻全场

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点