北京大学发布LLMs（预训练+微调）数据管理全流程综述

AIGC动态2年前 (2023)发布夕小瑶科技说

534 0 0

AIGC动态欢迎阅读

原标题：北京大学发布LLMs（预训练+微调）数据管理全流程综述

关键字：数据,指令,模型,任务,质量

文章来源：夕小瑶科技说

内容字数：8631字

内容摘要：

夕小瑶科技说原创作者 | 谢年年、python数据一直以来都是大语言模型（LLMs）构建的基石。LLMs强大的能力在很大程度上依赖于在大量数据上的自我监督预训练。并且，通过进一步在指令数据集上进行有监督微调，可以进一步提高LLMs遵循指令和完成各种各样下游任务的能力。然而，现有的许多知名LLMs并没有详细公布或深度总结其在训练全阶段所使用的数据情况，以及如何进行数据去重、过滤等数据管理过程。
近日，来自北京大学的学者发布了LLMs训练数据管理全流程综述，分别从预训练与有监督微调两个阶段详细总结了包括数据规模、数据质量、领域组成以及数据管理系统等方面的研究。
论文标题:Data Management For Large Language Models: A Survey
论文链接:https://arxiv.org/pdf/2312.01700.pdf
预训练阶段1. 数据规模模型规模与训练数据集规模之间符合缩放定律，即当模型大小和训练计算预算没有瓶颈限制时，模型性能与训练数据集规模呈幂律关系。只要同时扩大模型大小和训练数据集规模，模型性能可以提高，但如果其中一个固定而另一个增加，就会

原文链接：点此阅读原文：北京大学发布LLMs（预训练+微调）数据管理全流程综述