直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型

直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型

原标题:直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型
文章来源:新智元
内容字数:4601字

斯坦福等机构开源SOTA推理模型OpenThinker-32B

近日,斯坦福大学、UC伯克利、华盛顿大学等机构联合发布了开源推理模型OpenThinker-32B,其性能逼近DeepSeek-R1-32B,并在多个基准测试中超越了李飞飞团队的s1和s1.1模型。该模型的成功秘诀在于数据规模化、严格验证和模型扩展。

1. 数据规模化与验证

OpenThinker-32B的训练数据规模为114k,远小于DeepSeek-R1-Distill-32B使用的800k数据,却取得了几乎相同的性能。这得益于研究团队对数据的精心筛选和验证。他们利用DeepSeek-R1模型生成17.3万个问题及解答,并通过代码执行、LLM评判等方式进行验证,最终筛选出高质量的114k数据集(OpenThoughts-114k)。该数据集包含丰富的元数据,方便用户进行数据过滤、领域切换等操作。未经验证的数据集(OpenThoughts-Unverfied-173k)也已公开发布,供进一步研究。

2. 模型训练与扩展

研究团队使用LLaMa-Factory对Qwen2.5-32B-Instruct进行了三轮微调,训练过程在AWS SageMaker集群和Leonardo超级计算机上分别进行。OpenThinker-32B的训练耗时90小时,使用了2880个H100小时;OpenThinker-32B-Unverified的训练耗时30小时,使用了11520个A100小时。所有模型权重、数据集、数据生成代码和训练代码均已开源。

3. 性能评估与开源

研究团队使用开源评估库Evalchemy对模型进行评估,结果显示OpenThinker-32B在数学、代码和科学等多个基准测试中表现优异,性能直逼DeepSeek-R1-32B。项目主页、Hugging Face模型地址和数据集地址均已公开,方便研究人员进行进一步研究和应用。

4. 未来展望

研究团队期待社区利用OpenThoughts-114k数据集和OpenThinker模型进行强化学习等方面的研究,并相信数据、验证和模型规模的协同作用将继续推动开源推理模型的发展。OpenThinker-32B的开源,为整个AI社区提供了宝贵的资源和启示,也标志着开源推理模型发展迈出了重要一步。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...