FineWeb技术报告出炉！揭秘HuggingFace规模最大、质量最高预训练数据集

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：FineWeb技术报告出炉！揭秘HuggingFace规模最大、质量最高预训练数据集
关键字：报告,数据,模型,研究者,性能
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：Mindy
【新智元导读】从大规模网络爬取、精细过滤到去重技术，通过FineWeb的技术报告探索如何打造高质量数据集，为大型语言模型（LLM）预训练提供更优质的性能。大型语言模型（LLMs）的性能在很大程度上取决于它的预训练数据集的质量和大小。
然而，像Llama 3和Mixtral这样最先进的LLMs的预训练数据集并不公开；关于它们是如何创建的，我们知之甚少。
近日，Hugging Face上的一个团队发布了FineWeb数据集，这是一个用于LLM预训练的新型大规模（15万亿个tokens，44TB磁盘空间）数据集。
同时，他们还通过技术报告详细介绍了该数据集的加工决策过程：FineWeb源自96个CommonCrawl快照，它是如何通过缜密的去重和过滤策略，比其他开放预训练数据集产生了表现更好的LLM的。
创建数据集的准备工作开始创建数据集的第一步，需要考虑的问题是如何获取到大规模的数据。
Common Crawl这个非营利组织自2007年以来一直在爬取网络数据，并且每1到2个月发布一次新的爬取，包含200到400 TiB的文本内容。
于是，Common Craw

原文链接：FineWeb技术报告出炉！揭秘HuggingFace规模最大、质量最高预训练数据集