文章全面探讨了大语言模型在预训练数据选择上的重要性。
原标题:ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满
文章来源:机器之心
内容字数:5346字
DataMan: 提升大语言模型预训练效率的数据管理器
本文总结了浙江大学和阿里巴巴千问团队合作发表的论文“DataMan: Data Manager for Pre-training Large Language Models”,该论文提出了一种名为DataMan的数据管理器,用于优化大语言模型(LLMs)的预训练过程。在大型语言模型快速发展的背景下,高质量的预训练数据至关重要,而DataMan正是为了解决现有数据选择方法缺乏明确指导原则的问题而设计的。
1. 逆向思维指导质量标准
DataMan的核心思想是“逆向思维”,即利用强大的LLM (Super LLM)来分析模型困惑度异常的文本,从而反推出哪些文本特征对模型性能有益。通过这个过程,研究人员迭代提炼出13个文本质量标准,并结合一个综合性的“总体评分”,最终构建了一个全面的质量评分体系。Super LLM对这些标准的评分与人工评分的一致性超过95%,验证了其有效性。
2. DataMan 的工作流程
DataMan是一个综合性数据管理器,其工作流程主要包括三个步骤:
数据标注: 利用Super LLM对SlimPajama语料库进行标注,包括14个质量评分标准和15个应用领域。
模型微调: 使用Qwen2-1.5B作为基础模型,通过文本生成损失进行微调,学习自动评分和识别领域。
数据采样: 基于DataMan的评分和领域识别结果,采用不同的数据采样策略,例如top-k采样,以最大化样本的代表性和多样性。
3. 实验结果与分析
研究人员使用DataPajama (一个447B token的预训练语料库)进行了实验,比较了DataMan和其他数据选择方法的性能。结果表明,使用DataMan选择的数据训练的模型在多个下游任务上均优于基线模型,胜率最高可达78.5%,并且性能超过使用50%更多数据训练的模型。尤其在上下文学习(ICL)任务中,DataMan的优势更为显著。
此外,研究还探索了DataMan在垂直领域继续预训练的应用,以及数据量对模型性能的影响。实验结果表明,DataMan能够有效地进行领域混合和数据选择,提升模型在特定领域的性能。
4. 困惑度与上下文学习的错位
研究发现,困惑度(PPL)和上下文学习(ICL)性能之间存在错位现象,主要原因是领域不匹配和ICL任务的复杂性。一些ICL任务需要复杂的推理能力,而PPL难以捕捉这种能力。
5. 结论
DataMan提供了一种有效的数据管理方法,能够显著提升大语言模型的预训练效率和性能。其逆向思维和多维度质量评估体系为大规模预训练数据选择提供了新的思路和指导。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台