FineWeb技术报告出炉!揭秘HuggingFace规模最大、质量最高预训练数据集

AIGC动态5个月前发布 新智元
5 0 0

FineWeb技术报告出炉!揭秘HuggingFace规模最大、质量最高预训练数据集

AIGC动态欢迎阅读

原标题:FineWeb技术报告出炉!揭秘HuggingFace规模最大、质量最高预训练数据
关键字:报告,数据,模型,研究者,性能
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:Mindy
【新智元导读】从大规模网络爬取、精细过滤到去重技术,通过FineWeb的技术报告探索如何打造高质量数据集,为大型语言模型(LLM)预训练提供更优质的性能。大型语言模型(LLMs)的性能在很大程度上取决于它的预训练数据集的质量和大小。
然而,像Llama 3和Mixtral这样最先进的LLMs的预训练数据集并不公开;关于它们是如何创建的,我们知之甚少。
近日,Hugging Face上的一个团队发布了FineWeb数据集,这是一个用于LLM预训练的新型大规模(15万亿个tokens,44TB磁盘空间)数据集。
同时,他们还通过技术报告详细介绍了该数据集的加工决策过程:FineWeb源自96个CommonCrawl快照,它是如何通过缜密的去重和过滤策略,比其他开放预训练数据集产生了表现更好的LLM的。
创建数据集的准备工作开始创建数据集的第一步,需要考虑的问题是如何获取到大规模的数据。
Common Crawl这个非营利组织自2007年以来一直在爬取网络数据,并且每1到2个月发布一次新的爬取,包含200到400 TiB的文本内容。
于是,Common Craw


原文链接:FineWeb技术报告出炉!揭秘HuggingFace规模最大、质量最高预训练数据集

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...