北京大学发布LLMs(预训练+微调)数据管理全流程综述

北京大学发布LLMs(预训练+微调)数据管理全流程综述

AIGC动态欢迎阅读

原标题:北京大学发布LLMs(预训练+微调)数据管理全流程综述

关键字:数据,指令,模型,任务,质量

文章来源:夕小瑶科技说

内容字数:8631字

内容摘要:


夕小瑶科技说 原创作者 | 谢年年、python数据一直以来都是大语言模型(LLMs)构建的基石。LLMs强大的能力在很大程度上依赖于在大量数据上的自我监督预训练。并且,通过进一步在指令数据集上进行有监督微调,可以进一步提高LLMs遵循指令和完成各种各样下游任务的能力。然而,现有的许多知名LLMs并没有详细公布或深度总结其在训练全阶段所使用的数据情况,以及如何进行数据去重、过滤等数据管理过程。
近日,来自北京大学的学者发布了LLMs训练数据管理全流程综述,分别从预训练与有监督微调两个阶段详细总结了包括数据规模、数据质量、领域组成以及数据管理系统等方面的研究。
论文标题:Data Management For Large Language Models: A Survey
论文链接:https://arxiv.org/pdf/2312.01700.pdf
预训练阶段1. 数据规模模型规模与训练数据集规模之间符合缩放定律,即当模型大小和训练计算预算没有瓶颈限制时,模型性能与训练数据集规模呈幂律关系。只要同时扩大模型大小和训练数据集规模,模型性能可以提高,但如果其中一个固定而另一个增加,就会


原文链接:点此阅读原文:北京大学发布LLMs(预训练+微调)数据管理全流程综述

联系作者

文章来源:夕小瑶科技说

作者微信:xixiaoyaoQAQ

作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...