DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍

最佳后训练工具来了。

原标题：DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍
文章来源：机器之心
内容字数：4549字

DeepSeek V3/R1模型的爆火引发了低价甚至免费的内卷竞争。本文介绍如何利用Colossal-AI开源大模型后训练工具箱，基于DeepSeek模型，结合专业领域数据，低成本高效地构建高质量私有模型，提升业务竞争力。

Colossal-AI 提供了低成本监督微调 (SFT) DeepSeek V3/R1 671B 参数模型的完整解决方案。其核心在于利用LoRA技术优化硬件资源消耗，将最低硬件要求降低近10倍。

数据集准备： 使用JSONL格式的数据集，每行是一个对话列表，兼容HuggingFace chat template，支持自定义system prompt。
模型权重准备： 使用BF16权重进行微调，可使用提供的脚本将FP8权重转换为BF16，兼容Nvidia GPU和华为昇腾NPU。
一键启动脚本： 使用Colossal-AI提供的一键启动脚本lora_finetune.py，该脚本支持HuggingFace PEFT，并可通过参数配置进行灵活调整，例如学习率、批量大小、LoRA秩等。脚本支持Tensorboard监控训练过程。
LoRA优化： 通过LoRA技术，极大降低了硬件资源消耗，例如可以使用32个Ascend 910B NPU 64GB或24个H100/H800 GPU进行微调。 --zero_cpu_offload选项可进一步降低硬件要求，但会牺牲部分训练速度。

对于预算有限的用户，Colossal-AI 提供了基于强化学习微调蒸馏版DeepSeek的方案。该方案以Qwen2.5-3B-Base模型为例，验证了GRPO算法和可验证奖励机制。

Colossal-AI致力于成为开发者开箱即用的最佳后训练工具，帮助用户基于开源模型，低成本快速构建私有模型，从而提升业务竞争力与价值。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...