开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

AIGC动态6个月前发布 新智元
11 0 0

开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

AIGC动态欢迎阅读

原标题:开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据
关键字:数据,报告,模型,研究人员,字符串
文章来源:新智元
内容字数:15439字

内容摘要:


新智元报道编辑:LRS
【新智元导读】FineWeb是一个高质量的预训练数据集,包含15T+个tokens,主要包含英语文本;消融实验证明了FineWeb数据集的质量要高于其他开源数据集;数据清洗脚本也已开源。Meta最近开源的Llama 3模型再次证明了「数据」是提升性能的关键,但现状是,开源的大模型有一堆,可开源的大规模数据却没多少,而收集、清洗数据又是一项极其费时费力的工作,也导致了大模型预训练技术仍然掌握在少数高端机构的手中。最近,Huggingface的机器学习团队宣布开源了一个迄今为止,规模最大的、质量最高的、即用型(ready-to-use)数据集FineWeb数据集链接:https://huggingface.co/datasets/HuggingFaceFW/fineweb
FineWeb是在对CommonCrawl数据集(2013年夏天到2024年3月,共95个dump)进行去重、清洗后,得到的一个高质量、包含15T+个tokens(根据GPT-2的分词器)的Web数据集,也是目前公开可用的、最干净的语言模型预训练数据集,其主要用作英语领域的公共数据研究。
在数据


原文链接:开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...