Light-R1

AI工具1年前 (2025)更新 AI工具集

Light-R1 – 360智脑开源的长思维链推理模型

Light-R1是360智脑推出的一款开源AI模型，专注于数学领域的长思维链推理。该模型名为Light-R1-32B，基于Qwen2.5-32B-Instruct构建，并通过7万条数学数据与双阶段课程学习（SFT+DPO）进行训练，成功超越了DeepSeek-R1-Distill-Qwen-32B的性能。在AIME24测试中，Light-R1取得了76.6的高分，明显高于DeepSeek-R1-Distill的72.6分。此外，模型的训练成本非常低，使用12台H800机器运行6小时，费用约为1000美元。Light-R1完全开源，包括模型、数据集、训练框架和评测代码，旨在推动开源社区的发展，为低成本训练领域的专业模型提供借鉴。

Light-R1是什么

Light-R1是360智脑的开源AI模型，专注于数学领域的长思维链推理。具体版本为Light-R1-32B，基于Qwen2.5-32B-Instruct开发。通过采用7万条数学数据进行双阶段课程学习（SFT+DPO），该模型在性能上超越了DeepSeek-R1-Distill-Qwen-32B。在AIME24测试中，Light-R1以76.6分的优异成绩领先于DeepSeek-R1-Distill的72.6分。其训练成本低，仅需12台H800机器运行6小时，约1000美元。该模型全面开源，旨在推动开源社区的发展，并为低成本训练领域的专业模型提供参考。

Light-R1

Light-R1的主要功能

高效数学问题解决：能够迅速且准确地解决各种复杂数学问题，涵盖代数、几何、概率等多个领域。
推理能力提升：具备强大的逻辑推理能力，能够处理长思维链的问题。
泛化能力：在逻辑推理及语言理解等其他领域也展现出良好的泛化能力。
低成本训练与部署：以极低的成本实现高性能，非常适合资源有限的用户或企业快速部署和应用。

Light-R1的技术原理

基础模型与起点：模型依托Qwen2.5-32B-Instruct开发，经过优化后实现了超越DeepSeek-R1-Distill的性能提升。
课程学习：
- SFT（Supervised Fine-Tuning）：通过筛选难度分级的数据，进行有监督的微调，第一阶段使用7万条数据，第二阶段从中挑选出难度最高的3000条进行进一步微调。
- DPO（Direct Preference Optimization）：在SFT的基础上，通过多次采样和偏好对的构建，对模型的输出质量进行优化。
数据处理与去重：训练数据采集自多个开源数学数据集（如OpenR1-Math-220k、OpenThoughts-114k等），经过严格的数据去重处理，确保测试数据的保密性，避免对模型性能的影响。
模型融合：最终形成的Light-R1-32B是经过SFT阶段2、DPO以及另一个DPO版本的模型融合而成，进一步提升了模型的性能和稳定性。
训练框架与优化：使用360-LLaMA-Factory训练框架，支持序列并行和高效的分布式训练。通过优化训练流程，Light-R1在12台H800机器上仅需6小时即可完成训练。