DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍

最佳后训练工具来了。

DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍

原标题:DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍
文章来源:机器之心
内容字数:4549字

基于Colossal-AI低成本打造高质量私有DeepSeek模型

DeepSeek V3/R1模型的爆火引发了低价甚至免费的内卷竞争。本文介绍如何利用Colossal-AI开源大模型后训练工具箱,基于DeepSeek模型,结合专业领域数据,低成本高效地构建高质量私有模型,提升业务竞争力。

1. 低成本微调DeepSeek V3/R1 671B参数模型

Colossal-AI 提供了低成本监督微调 (SFT) DeepSeek V3/R1 671B 参数模型的完整解决方案。其核心在于利用LoRA技术优化硬件资源消耗,将最低硬件要求降低近10倍。

  1. 数据集准备: 使用JSONL格式的数据集,每行是一个对话列表,兼容HuggingFace chat template,支持自定义system prompt。

  2. 模型权重准备: 使用BF16权重进行微调,可使用提供的脚本将FP8权重转换为BF16,兼容Nvidia GPU和华为昇腾NPU。

  3. 一键启动脚本: 使用Colossal-AI提供的一键启动脚本lora_finetune.py,该脚本支持HuggingFace PEFT,并可通过参数配置进行灵活调整,例如学习率、批量大小、LoRA秩等。 脚本支持Tensorboard监控训练过程。

  4. LoRA优化: 通过LoRA技术,极大降低了硬件资源消耗,例如可以使用32个Ascend 910B NPU 64GB或24个H100/H800 GPU进行微调。 --zero_cpu_offload选项可进一步降低硬件要求,但会牺牲部分训练速度。

2. 基于强化学习微调蒸馏版DeepSeek

对于预算有限的用户,Colossal-AI 提供了基于强化学习微调蒸馏版DeepSeek的方案。该方案以Qwen2.5-3B-Base模型为例,验证了GRPO算法和可验证奖励机制。

  1. 奖励函数设计: 奖励函数的设计灵活可配置,用户可根据自身需求自定义。

  2. 一键启动脚本: 提供一键启动脚本train_grpo.sh,方便用户快速启动训练。

  3. 实验结果: 实验结果表明,即使是3B参数的小模型,平均奖励和模型回复长度也能随着训练逐步增长,模型能够进行自我纠正。

3. Colossal-AI:最佳后训练工具箱

Colossal-AI致力于成为开发者开箱即用的最佳后训练工具,帮助用户基于开源模型,低成本快速构建私有模型,从而提升业务竞争力与价值。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...