开源15T tokens！HuggingFace放出规模最大、质量最高预训练数据集

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：开源15T tokens！HuggingFace放出规模最大、质量最高预训练数据集
关键字：数据,报告,模型,研究人员,字符串
文章来源：新智元
内容字数：15439字

内容摘要：

新智元报道编辑：LRS
【新智元导读】FineWeb是一个高质量的预训练数据集，包含15T+个tokens，主要包含英语文本；消融实验证明了FineWeb数据集的质量要高于其他开源数据集；数据清洗脚本也已开源。Meta最近开源的Llama 3模型再次证明了「数据」是提升性能的关键，但现状是，开源的大模型有一堆，可开源的大规模数据却没多少，而收集、清洗数据又是一项极其费时费力的工作，也导致了大模型预训练技术仍然掌握在少数高端机构的手中。最近，Huggingface的机器学习团队宣布开源了一个迄今为止，规模最大的、质量最高的、即用型（ready-to-use）数据集FineWeb数据集链接：https://huggingface.co/datasets/HuggingFaceFW/fineweb
FineWeb是在对CommonCrawl数据集（2013年夏天到2024年3月，共95个dump）进行去重、清洗后，得到的一个高质量、包含15T+个tokens（根据GPT-2的分词器）的Web数据集，也是目前公开可用的、最干净的语言模型预训练数据集，其主要用作英语领域的公共数据研究。
在数据

原文链接：开源15T tokens！HuggingFace放出规模最大、质量最高预训练数据集