少用33％数据，模型性能不变，陈丹琦团队用元数据来做降本增效

引入URL信息的预训练方法。

原标题：少用33％数据，模型性能不变，陈丹琦团队用元数据来做降本增效
文章来源：机器之心
内容字数：5819字

普林斯顿大学计算机科学系助理教授陈丹琦团队最新论文提出了一种名为MeCo（Metadata Conditioning then Cooldown）的预训练方法，该方法通过利用文档元数据（例如URL）来显著提高语言模型的数据效率，同时几乎不会增加计算开销。

传统语言模型将所有训练数据视为同等重要，忽略了数据来源的上下文信息。MeCo方法则在每个文档前添加其元数据（例如URL），从而为模型提供额外的上下文信息。在预训练的最后10%，MeCo采用“冷却”（cooldown）阶段，停止使用元数据，确保模型在推理阶段无论是否有元数据都能正常工作。

MeCo方法具有以下几个显著优势：

显著提升数据效率：实验表明，MeCo能够使1.6B参数的模型在使用减少33%的训练数据情况下，达到与标准预训练模型相同的下游任务性能。这种优势在不同模型规模(600M、1.6B、3B、8B)和数据源(C4、RefinedWeb、DCLM)上都得到了验证。
提供模型行为引导：在推理阶段，通过在提示前添加合适的真实或合成URL，可以引导模型产生期望的行为。例如，使用“factquizmaster.com”可以提升常识推理性能，而使用“wikipedia.org”可以降低模型生成有害内容的可能性。
兼容多种元数据：MeCo方法兼容多种类型的元数据，例如散列URL和模型生成的主题，其核心作用在于根据来源对文档进行分组。
几乎不增加计算开销：MeCo方法在提升数据效率的同时，几乎不会增加预训练的计算开销和复杂性。

MeCo方法包含两个训练阶段：

元数据条件预训练 (前90%): 模型在元数据和文档的拼接序列上进行训练，例如“URL: en.wikipedia.org\n\n [document]”。损失函数仅计算文档token的交叉熵损失。
冷却阶段 (后10%): 使用不含元数据的标准预训练数据进行训练，确保模型在无元数据情况下也能正常工作。该阶段继承了上一阶段的学习率计划和优化器状态。

实验结果表明，MeCo方法在各种模型规模、数据源和下游任务上都取得了显著的性能提升。MeCo在数据量减少的情况下，依然能够达到与标准预训练方法相当的性能，体现了其优越的数据效率。

MeCo是一种简单、灵活且高效的预训练方法，它能够同时提高语言模型的数据效率、可控性和实用性，为构建更强大和可控的语言模型提供了新的思路。其兼容多种元数据的特性也值得进一步探索。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...