原标题:强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好
文章来源:新智元
内容字数:6275字
强化学习训练:数据质量胜过规模
近年来,强化学习(RL)在大型语言模型(LLM)训练中展现出巨大潜力,但对RL训练数据的有效性理解仍存在空白。一篇新研究挑战了“数据规模越大,模型推理能力越强”的传统认知,提出了一种名为学习影响测量(LIM)的新方法,证明了数据质量对提升模型推理能力的重要性远超数据规模。
挑战Scaling Law
这项研究直接挑战了强化学习领域的Scaling Law,即数据规模与模型性能之间的线性关系。研究者发现,在提升语言模型推理能力方面,精心挑选的少量高质量数据,可以达到甚至超越大量低质量数据的训练效果。这颠覆了以往对RL训练数据的认知,暗示Scaling Law可能并不适用于所有RL场景。
LIM方法:高效选择高质量数据
研究团队提出了学习影响测量(LIM)方法,该方法通过分析模型学习轨迹,量化每个训练样本对模型改进的贡献。LIM计算一个归一化对齐分数,衡量样本奖励变化趋势与模型整体学习轨迹的相似程度。分数越高,表示样本对模型改进的贡献越大。通过设置阈值,LIM可以有效地筛选出高质量的样本,从而构建一个精简高效的训练数据集(LIMR)。
实验结果:小样本高性能
实验结果显示,包含1389个样本的LIMR数据集,其性能与包含8523个样本的完整数据集相当甚至更优。与随机抽样和线性进展分析等基线方法相比,LIMR在多个基准测试(MATH500、AIME2024和AMC2023)上均取得了显著的性能提升。这有力地证明了LIM方法在提升RL训练数据效率方面的有效性。
RL与SFT的对比:小模型的优势
进一步的对比实验表明,在数据稀疏且模型较小的情况下,结合LIM方法的强化学习优于监督微调(SFT)。即使只有约1000个样本,LIMR在AIME、AMC23和MATH500上的准确率也显著高于SFT方法。这表明,在资源受限的情况下,选择合适的数据并结合高效的RL训练策略,可以有效提升小模型的推理能力。
结论:数据质量是关键
这项研究的核心结论是:在强化学习训练中,提升模型推理能力的关键在于优化数据质量,而不是简单地增加数据规模。LIM方法为高效的RL训练提供了一种新的解决方案,并为理解RL训练动态提供了重要的理论和实践指导。该研究有望推动RL在LLM训练中的应用,并为资源受限场景下的模型训练提供新的思路。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。