汇总Llama3.1、DeepSeek-V3、TÜLU 3和Qwen2.5的后训练Post-Training技术。
原标题:从Llama3.1到DeepSeek-V3,大模型Post-Training总结!
文章来源:智猩猩GenAI
内容字数:14490字
Llama 3.1、DeepSeek-V3、TÜLU 3和Qwen2.5后训练技术总结
本文总结了Llama 3.1、DeepSeek-V3、TÜLU 3和Qwen2.5四个大型语言模型的后训练(Post-Training)技术,重点关注其数据、策略和超参数选择。
1. Llama 3.1: 迭代式后训练
Llama 3.1采用迭代式后训练,共进行6轮。每轮包含奖励建模(Reward Modeling,RM)、拒绝采样(Rejection Sampling)、监督微调(Supervised Fine-tuning,SFT)和直接偏好优化(Direct Preference Optimization,DPO)四个步骤。
- 数据:SFT数据由拒绝采样结果、合成数据和少量人工标注数据构成;Preference数据每一轮都会新增,并累积使用。
- SFT:采用学习率1e-5,训练步数在8.5K到9K步之间,高质量数据重复训练多次,低质量数据降采样。
- RM & DPO:每轮重新训练RM,使用所有Preference数据;DPO只使用最新批次的Preference数据,并过滤掉特定数据。
- 数据清洗:采用主题分类、质量评分、难度评分和语义去重等方法。
2. DeepSeek-V3: SFT-GRPO
DeepSeek-V3采用SFT和基于梯度奖励优化的策略(Gradient Reward Policy Optimization,GRPO)两阶段后训练。
- SFT:构建1.5M指令微调数据集,包含推理和非推理数据;利用专家模型生成数据,并进行拒绝采样。
- RM:训练基于规则和基于模型两种RM;基于模型的RM使用偏好数据,并包含推理链。
- GRPO:简化版的PPO,移除价值模型,依靠多次采样的奖励计算优势函数。
- 其他:探索了DeepSeek-R1蒸馏、自我奖励和多token预测。
3. TÜLU 3: SFT-DPO-RLVR
TÜLU 3采用SFT、DPO和可验证奖励强化学习(Reinforcement Learning with Verifiable Rewards,RLVR)三阶段后训练。
- SFT:使用多种开源数据,采用求和损失而非平均损失,学习率5e-6,训练2个epoch。
- DPO:使用长度归一化DPO,Preference数据来自SFT数据、WildChat和Persona IF等,包含新旧prompt和on/off-policy数据。
- RLVR:基于规则的RM进行强化学习,使用PPO算法,并用通用RM初始化价值模型,不直接使用RM分数。
4. Qwen2.5: SFT-DPO-GRPO
Qwen2.5采用SFT、DPO和GRPO三阶段后训练。
- SFT:构建1M规模数据集,使用32K序列长度,训练2个epoch。
- DPO:使用基于规则的数据,数据量150,000对,学习率7e-7,训练1个epoch。
- GRPO:使用多个模型采样数据,并根据RM评估的奖励分数方差调整prompt处理顺序。
总而言之,这四个模型的后训练方法各有特点,但都强调高质量数据的收集和利用,以及对不同强化学习算法和策略的探索。 这些方法的共同目标是提升模型的性能、安全性以及对指令的遵循性。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...