微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源

微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源

原标题:微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源
文章来源:新智元
内容字数:4428字

RedStone:高效构建大规模领域特定数据集的利器

大型语言模型(LLMs)的训练依赖于海量高质量数据。然而,现有开源数据集常常难以满足日益增长的需求。微软研究团队开发了RedStone,一个高效构建大规模指定领域数据的处理管道,解决了这一难题。RedStone从Common Crawl中提取数据,并构建了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等多个数据集,在多个任务中超越了现有开源数据集,显著提升了模型性能。

1. RedStone的工作原理:RedStone结合了主流数据处理工具和自定义模块,优化数据处理流程。它以Common Crawl为原始数据源,使用统一的数据处理框架清洗各类目标数据。其核心在于多层过滤系统,从快速过滤到精细过滤和片段抽取,确保数据质量。RedStone的代码已开源,方便用户复现和自定义。

2. RedStone-Web:高质量通用预训练数据:RedStone-Web是一个大规模的通用预训练数据集,包含3.1T tokens。RedStone对高质量数据的定义并非单纯的文本流畅度,而是兼顾知识性和流畅性。其处理框架参考了refinedweb和redpajama,但采用了新的过滤系统,最终获得了高质量的通用预训练数据。

3. RedStone-Code、RedStone-Math和RedStone-QA:特定领域数据集:RedStone不仅构建了通用数据集,还挖掘了网络中丰富的特定领域数据。RedStone-Code包含代码和文本交错的数据,RedStone-Math包含数学相关数据,RedStone-QA则是一个大规模的问答数据集。这些数据集的构建同样依赖于RedStone的多层过滤系统,确保数据质量。

4. 实验结果与结论:实验结果表明,RedStone构建的数据集在多个任务中显著优于现有开源数据集。RedStone-Web在大部分任务中都取得了最佳成绩,RedStone-Code在代码相关任务中也展现了显著的优势,RedStone-Math超越了OpenWebMath,RedStone-QA则在MMLU任务上提升了约10个点。这些结果证明RedStone在构建LLM训练数据方面具有显著的优势,为模型预训练和后训练提供了坚实的数据支撑。

5. RedStone的优势:RedStone具有高效性、可扩展性和领域适应性。其高效的数据处理管道能够快速构建大规模数据集,其可扩展性允许构建各种类型的特定领域数据集,其领域适应性使其能够应用于几乎所有领域。RedStone的开源代码也方便了社区的参与和发展。

总之,RedStone是一个功能强大的工具,它为构建高质量的大规模LLM训练数据提供了新的途径,推动了LLM研究的发展。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...