开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

复杂的推理能力可以通过少量精心设计的样本达成。

开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

原标题:开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了
文章来源:机器之心
内容字数:9264字

DeepSeek 引发的全球复现热潮与 OpenR1 项目进展

DeepSeek大模型的出现,打破了中国AI技术长期落后的局面,引发了全球范围内的复现热潮。虽然DeepSeek-R1并非完全开源,但其技术报告为复现提供了指导,许多团队已取得成功。其中,Hugging Face领导的Open R1项目尤为引人注目,旨在完全开放复现DeepSeek-R1,并补齐所有未公开的技术细节。

1. OpenR1 项目的快速进展

Open R1项目启动几周内便取得了显著进展,其GitHub仓库已公开训练与评估代码及合成数据生成器。近期,他们发布了OpenR1-Math-220k数据集,填补了DeepSeek R1未公开的合成数据缺口。该数据集包含22万条高质量的数学推理轨迹,可用于训练更小模型,达到与DeepSeek R1相当的性能。

2. OpenR1-Math-220k 数据集的特点

OpenR1-Math-220k数据集基于DeepSeek R1生成,拥有以下特点:

  1. 基于NuminaMath 1.5:专注于数学推理公式。
  2. 高效生成:利用本地计算集群,每天可生成18万条推理轨迹。
  3. 自动过滤:通过数学验证和Llama-3.3-70B-Instruct模型筛选,确保数据质量。
  4. 数据集划分:分为default (94k问题)和extended (131k问题)两个部分。

在该数据集上训练的Qwen-7B-Math-Instruct模型,性能与DeepSeek-Distill-Qwen-7B相当。

3. 数据集的生成和过滤过程

OpenR1团队利用DeepSeek R1为40万个问题生成答案,并设置了严格的过滤机制:首先,通过数学验证自动筛选正确答案;其次,利用Llama-3.3-70B-Instruct模型作为“判官”,进一步筛选出因格式问题被误判的正确答案;最后,尝试使用奖励模型进行最终筛选,但效果并不理想。

4. OpenR1 训练模型与 DeepSeek 的性能对比

OpenR1在OpenR1-Math-220k数据集上对Qwen2.5-Math-Instruct进行微调后,其性能与DeepSeek-Distill-Qwen-7B差距不大。然而,AIME 2025竞赛中,各种模型的数学能力普遍下降,这可能与测试数据泄露导致的过拟合有关。

5. 对未来研究方向的启示

OpenR1项目以及其他研究成果表明:

  1. 少量高质量数据即可实现高级推理能力:s1K和LIMO数据集都证明了这一点。
  2. CoT长度的优化:预算和奖励塑造等技术可以有效提升模型性能。
  3. 探索更有效的推理方法:例如,利用循环语言模型在潜在空间中进行隐式推理,提高计算效率。

OpenR1项目仍在持续进行,未来将进一步探索GRPO等技术,并期待更多突破性进展。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...