最佳后训练工具来了。
原标题:DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍
文章来源:机器之心
内容字数:4549字
基于Colossal-AI低成本打造高质量私有DeepSeek模型
DeepSeek V3/R1模型的爆火引发了低价甚至免费的内卷竞争。本文介绍如何利用Colossal-AI开源大模型后训练工具箱,基于DeepSeek模型,结合专业领域数据,低成本高效地构建高质量私有模型,提升业务竞争力。
1. 低成本微调DeepSeek V3/R1 671B参数模型
Colossal-AI 提供了低成本监督微调 (SFT) DeepSeek V3/R1 671B 参数模型的完整解决方案。其核心在于利用LoRA技术优化硬件资源消耗,将最低硬件要求降低近10倍。
数据集准备: 使用JSONL格式的数据集,每行是一个对话列表,兼容HuggingFace chat template,支持自定义system prompt。
模型权重准备: 使用BF16权重进行微调,可使用提供的脚本将FP8权重转换为BF16,兼容Nvidia GPU和华为昇腾NPU。
一键启动脚本: 使用Colossal-AI提供的一键启动脚本
lora_finetune.py
,该脚本支持HuggingFace PEFT,并可通过参数配置进行灵活调整,例如学习率、批量大小、LoRA秩等。 脚本支持Tensorboard监控训练过程。LoRA优化: 通过LoRA技术,极大降低了硬件资源消耗,例如可以使用32个Ascend 910B NPU 64GB或24个H100/H800 GPU进行微调。
--zero_cpu_offload
选项可进一步降低硬件要求,但会牺牲部分训练速度。
2. 基于强化学习微调蒸馏版DeepSeek
对于预算有限的用户,Colossal-AI 提供了基于强化学习微调蒸馏版DeepSeek的方案。该方案以Qwen2.5-3B-Base模型为例,验证了GRPO算法和可验证奖励机制。
奖励函数设计: 奖励函数的设计灵活可配置,用户可根据自身需求自定义。
一键启动脚本: 提供一键启动脚本
train_grpo.sh
,方便用户快速启动训练。实验结果: 实验结果表明,即使是3B参数的小模型,平均奖励和模型回复长度也能随着训练逐步增长,模型能够进行自我纠正。
3. Colossal-AI:最佳后训练工具箱
Colossal-AI致力于成为开发者开箱即用的最佳后训练工具,帮助用户基于开源模型,低成本快速构建私有模型,从而提升业务竞争力与价值。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台