Light-R1

Light-R1 – 360智脑开源的长思维链推理模型

Light-R1是360智脑推出的一款开源AI模型,专注于数学领域的长思维链推理。该模型名为Light-R1-32B,基于Qwen2.5-32B-Instruct构建,并通过7万条数学数据与双阶段课程学习(SFT+DPO)进行训练,成功超越了DeepSeek-R1-Distill-Qwen-32B的性能。在AIME24测试中,Light-R1取得了76.6的高分,明显高于DeepSeek-R1-Distill的72.6分。此外,模型的训练成本非常低,使用12台H800机器运行6小时,费用约为1000美元。Light-R1完全开源,包括模型、数据集、训练框架和评测代码,旨在推动开源社区的发展,为低成本训练领域的专业模型提供借鉴。

Light-R1是什么

Light-R1是360智脑的开源AI模型,专注于数学领域的长思维链推理。具体版本为Light-R1-32B,基于Qwen2.5-32B-Instruct开发。通过采用7万条数学数据进行双阶段课程学习(SFT+DPO),该模型在性能上超越了DeepSeek-R1-Distill-Qwen-32B。在AIME24测试中,Light-R1以76.6分的优异成绩领先于DeepSeek-R1-Distill的72.6分。其训练成本低,仅需12台H800机器运行6小时,约1000美元。该模型全面开源,旨在推动开源社区的发展,并为低成本训练领域的专业模型提供参考。

Light-R1

Light-R1的主要功能

  • 高效数学问题解决:能够迅速且准确地解决各种复杂数学问题,涵盖代数、几何、概率等多个领域。
  • 推理能力提升:具备强大的逻辑推理能力,能够处理长思维链的问题。
  • 泛化能力:在逻辑推理及语言理解等其他领域也展现出良好的泛化能力。
  • 低成本训练与部署:以极低的成本实现高性能,非常适合资源有限的用户或企业快速部署和应用。

Light-R1的技术原理

  • 基础模型与起点:模型依托Qwen2.5-32B-Instruct开发,经过优化后实现了超越DeepSeek-R1-Distill的性能提升。
  • 课程学习
    • SFT(Supervised Fine-Tuning):通过筛选难度分级的数据,进行有监督的微调,第一阶段使用7万条数据,第二阶段从中挑选出难度最高的3000条进行进一步微调。
    • DPO(Direct Preference Optimization):在SFT的基础上,通过多次采样和偏好对的构建,对模型的输出质量进行优化。
  • 数据处理与去重:训练数据采集自多个开源数学数据集(如OpenR1-Math-220k、OpenThoughts-114k等),经过严格的数据去重处理,确保测试数据的保密性,避免对模型性能的影响。
  • 模型融合:最终形成的Light-R1-32B是经过SFT阶段2、DPO以及另一个DPO版本的模型融合而成,进一步提升了模型的性能和稳定性。
  • 训练框架与优化:使用360-LLaMA-Factory训练框架,支持序列并行和高效的分布式训练。通过优化训练流程,Light-R1在12台H800机器上仅需6小时即可完成训练。

Light-R1的项目地址

Light-R1的应用场景

  • 教育领域:作为数学学习工具,帮助学生解决复杂问题,提供详细解题步骤和思路,适用于数学竞赛和日常学习。
  • 科研与学术:辅助数学研究和跨学科问题解决,例如物理建模、工程优化等。
  • 企业应用:用于数据分析、风险评估、供应链优化等复杂问题的解决。
  • 软件集成:可以集成到智能助手、数学软件中,增强其推理和解题功能。
  • 开源与开发者:支持开发者进行定制和扩展,推动开源社区的进步。

常见问题

  • Light-R1支持哪些数学领域?:Light-R1能够处理代数、几何、概率等多个数学领域的问题。
  • 如何获取Light-R1模型?:用户可以通过GitHub或HuggingFace模型库下载Light-R1模型及相关资源。
  • Light-R1的训练成本高吗?:不高,Light-R1在12台H800机器上运行6小时的成本约为1000美元。
  • 可以在教育中如何使用Light-R1?:Light-R1可作为数学学习辅导工具,帮助学生解决难题并提供解题思路。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...