Light-R1 – 360智脑开源的长思维链推理模型
Light-R1是360智脑推出的一款开源AI模型,专注于数学领域的长思维链推理。该模型名为Light-R1-32B,基于Qwen2.5-32B-Instruct构建,并通过7万条数学数据与双阶段课程学习(SFT+DPO)进行训练,成功超越了DeepSeek-R1-Distill-Qwen-32B的性能。在AIME24测试中,Light-R1取得了76.6的高分,明显高于DeepSeek-R1-Distill的72.6分。此外,模型的训练成本非常低,使用12台H800机器运行6小时,费用约为1000美元。Light-R1完全开源,包括模型、数据集、训练框架和评测代码,旨在推动开源社区的发展,为低成本训练领域的专业模型提供借鉴。
Light-R1是什么
Light-R1是360智脑的开源AI模型,专注于数学领域的长思维链推理。具体版本为Light-R1-32B,基于Qwen2.5-32B-Instruct开发。通过采用7万条数学数据进行双阶段课程学习(SFT+DPO),该模型在性能上超越了DeepSeek-R1-Distill-Qwen-32B。在AIME24测试中,Light-R1以76.6分的优异成绩领先于DeepSeek-R1-Distill的72.6分。其训练成本低,仅需12台H800机器运行6小时,约1000美元。该模型全面开源,旨在推动开源社区的发展,并为低成本训练领域的专业模型提供参考。
Light-R1的主要功能
- 高效数学问题解决:能够迅速且准确地解决各种复杂数学问题,涵盖代数、几何、概率等多个领域。
- 推理能力提升:具备强大的逻辑推理能力,能够处理长思维链的问题。
- 泛化能力:在逻辑推理及语言理解等其他领域也展现出良好的泛化能力。
- 低成本训练与部署:以极低的成本实现高性能,非常适合资源有限的用户或企业快速部署和应用。
Light-R1的技术原理
- 基础模型与起点:模型依托Qwen2.5-32B-Instruct开发,经过优化后实现了超越DeepSeek-R1-Distill的性能提升。
- 课程学习:
- SFT(Supervised Fine-Tuning):通过筛选难度分级的数据,进行有监督的微调,第一阶段使用7万条数据,第二阶段从中挑选出难度最高的3000条进行进一步微调。
- DPO(Direct Preference Optimization):在SFT的基础上,通过多次采样和偏好对的构建,对模型的输出质量进行优化。
- 数据处理与去重:训练数据采集自多个开源数学数据集(如OpenR1-Math-220k、OpenThoughts-114k等),经过严格的数据去重处理,确保测试数据的保密性,避免对模型性能的影响。
- 模型融合:最终形成的Light-R1-32B是经过SFT阶段2、DPO以及另一个DPO版本的模型融合而成,进一步提升了模型的性能和稳定性。
- 训练框架与优化:使用360-LLaMA-Factory训练框架,支持序列并行和高效的分布式训练。通过优化训练流程,Light-R1在12台H800机器上仅需6小时即可完成训练。
Light-R1的项目地址
- GitHub仓库:https://github.com/Qihoo360/Light-R1
- HuggingFace模型库:https://huggingface.co/collections/qihoo360/light-r1
Light-R1的应用场景
- 教育领域:作为数学学习工具,帮助学生解决复杂问题,提供详细解题步骤和思路,适用于数学竞赛和日常学习。
- 科研与学术:辅助数学研究和跨学科问题解决,例如物理建模、工程优化等。
- 企业应用:用于数据分析、风险评估、供应链优化等复杂问题的解决。
- 软件集成:可以集成到智能助手、数学软件中,增强其推理和解题功能。
- 开源与开发者:支持开发者进行定制和扩展,推动开源社区的进步。
常见问题
- Light-R1支持哪些数学领域?:Light-R1能够处理代数、几何、概率等多个数学领域的问题。
- 如何获取Light-R1模型?:用户可以通过GitHub或HuggingFace模型库下载Light-R1模型及相关资源。
- Light-R1的训练成本高吗?:不高,Light-R1在12台H800机器上运行6小时的成本约为1000美元。
- 可以在教育中如何使用Light-R1?:Light-R1可作为数学学习辅导工具,帮助学生解决难题并提供解题思路。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...