强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

原标题:强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好
文章来源:新智元
内容字数:6275字

强化学习训练:数据质量胜过规模

近年来,强化学习(RL)在大型语言模型(LLM)训练中展现出巨大潜力,但对RL训练数据的有效性理解仍存在空白。一篇新研究挑战了“数据规模越大,模型推理能力越强”的传统认知,提出了一种名为学习影响测量(LIM)的新方法,证明了数据质量对提升模型推理能力的重要性远超数据规模。

  1. 挑战Scaling Law

    这项研究直接挑战了强化学习领域的Scaling Law,即数据规模与模型性能之间的线性关系。研究者发现,在提升语言模型推理能力方面,精心挑选的少量高质量数据,可以达到甚至超越大量低质量数据的训练效果。这颠覆了以往对RL训练数据的认知,暗示Scaling Law可能并不适用于所有RL场景。

  2. LIM方法:高效选择高质量数据

    研究团队提出了学习影响测量(LIM)方法,该方法通过分析模型学习轨迹,量化每个训练样本对模型改进的贡献。LIM计算一个归一化对齐分数,衡量样本奖励变化趋势与模型整体学习轨迹的相似程度。分数越高,表示样本对模型改进的贡献越大。通过设置阈值,LIM可以有效地筛选出高质量的样本,从而构建一个精简高效的训练数据集(LIMR)。

  3. 实验结果:小样本高性能

    实验结果显示,包含1389个样本的LIMR数据集,其性能与包含8523个样本的完整数据集相当甚至更优。与随机抽样和线性进展分析等基线方法相比,LIMR在多个基准测试(MATH500、AIME2024和AMC2023)上均取得了显著的性能提升。这有力地证明了LIM方法在提升RL训练数据效率方面的有效性。

  4. RL与SFT的对比:小模型的优势

    进一步的对比实验表明,在数据稀疏且模型较小的情况下,结合LIM方法的强化学习优于监督微调(SFT)。即使只有约1000个样本,LIMR在AIME、AMC23和MATH500上的准确率也显著高于SFT方法。这表明,在资源受限的情况下,选择合适的数据并结合高效的RL训练策略,可以有效提升小模型的推理能力。

  5. 结论:数据质量是关键

    这项研究的核心结论是:在强化学习训练中,提升模型推理能力的关键在于优化数据质量,而不是简单地增加数据规模。LIM方法为高效的RL训练提供了一种新的解决方案,并为理解RL训练动态提供了重要的理论和实践指导。该研究有望推动RL在LLM训练中的应用,并为资源受限场景下的模型训练提供新的思路。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...