1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

AIGC动态3周前发布 量子位
198 0 0

复杂奖励函数不是必要的

1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

原标题:1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法
文章来源:量子位
内容字数:2237字

阶跃星辰与清华联合发布Open Reasoner Zero (ORZ):高效的开源大模型推理训练方法

近日,国内大模型六小强之一的阶跃星辰联手清华大学,发布了名为Open Reasoner Zero (ORZ) 的全新开源大模型。该项目由沈向洋、姜大昕、张祥雨等AI领域知名学者和专家领衔,其高效的训练方法和令人瞩目的结果,迅速引发了广泛关注。

1. 高效的训练方法:突破DeepSeek-R1-Zero的训练效率

与DeepSeek-R1-Zero相比,ORZ在训练效率上取得了显著突破。在响应长度方面,ORZ仅需约17% 的训练步骤就能达到DeepSeek-R1-Zero 671B 的水平;在RL训练方法方面,ORZ仅需 1/30 的训练步骤就能达到相同尺寸DeepSeek-R1-Zero蒸馏Qwen的水平。这主要归功于ORZ采用的极简主义训练方法:结合了带有GAE (Generalized Advantage Estimation) 的原版PPO算法 (GAE λ=1,折扣因子γ=1) 和基于规则的奖励函数,无需复杂的奖励函数设计。

2. “顿悟时刻”的发现:训练过程中的涌现现象

ORZ团队在训练过程中观察到一个有趣的现象:在训练步骤约680步时,模型的训练奖励值、反思能力和回答长度同时出现显著提升,类似于DeepSeek-R1-Zero论文中描述的“顿悟时刻”(aha moment)。这种现象也类似于涌现行为,在以Qwen2.5-Base-7B为基础模型的实验中,所有基准测试在某个时间点都会经历奖励和响应长度的突然增加。

3. 稳定的训练:无需KL正则化

ORZ在训练过程中无需依赖任何基于KL散度的正则化技术,便实现了稳定的训练。这与RLHF和推理模型领域目前的认知有所不同,为进一步扩大强化学习规模提供了新的希望。

4. 数据的重要性:大规模多样化数据集是关键

研究表明,数据数量和多样性对ORZ的训练至关重要。在有限的学术数据集上训练会导致性能快速达到平台期,而精心策划的大规模多样化数据集能够实现持续扩展,在训练集和测试集上都没有饱和的迹象。在整个训练过程中,平均正确反思长度始终高于平均响应长度。

5. 优异的性能:超越Qwen2.5 Instruct

最终,ORZ模型在MMLU和MMLU_PRO基准测试中,无需任何额外的指令调整即可超越Qwen2.5 Instruct。

6. 完全开源:促进社区协作

ORZ项目已100% 开源,包括训练数据、训练代码、论文和模型,并采用宽松的MIT许可证,开源48小时内已获得700多个星标。这将极大地促进社区协作和模型的进一步发展。

总之,Open Reasoner Zero 的发布标志着大模型训练方法的一次重要突破。其高效的训练方法、令人惊叹的性能以及完全开源的特性,为大模型研究和应用带来了新的可能性,也为国内大模型的发展贡献了重要力量。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...