强化学习Scaling Law错了？无需蒸馏，数据量只要1/6，效果还更好

AIGC动态1年前 (2025)发布新智元

原标题：强化学习Scaling Law错了？无需蒸馏，数据量只要1/6，效果还更好
文章来源：新智元
内容字数：6275字

强化学习训练：数据质量胜过规模

近年来，强化学习(RL)在大型语言模型(LLM)训练中展现出巨大潜力，但对RL训练数据的有效性理解仍存在空白。一篇新研究挑战了“数据规模越大，模型推理能力越强”的传统认知，提出了一种名为学习影响测量(LIM)的新方法，证明了数据质量对提升模型推理能力的重要性远超数据规模。

挑战Scaling Law
这项研究直接挑战了强化学习领域的Scaling Law，即数据规模与模型性能之间的线性关系。研究者发现，在提升语言模型推理能力方面，精心挑选的少量高质量数据，可以达到甚至超越大量低质量数据的训练效果。这颠覆了以往对RL训练数据的认知，暗示Scaling Law可能并不适用于所有RL场景。
LIM方法：高效选择高质量数据
研究团队提出了学习影响测量(LIM)方法，该方法通过分析模型学习轨迹，量化每个训练样本对模型改进的贡献。LIM计算一个归一化对齐分数，衡量样本奖励变化趋势与模型整体学习轨迹的相似程度。分数越高，表示样本对模型改进的贡献越大。通过设置阈值，LIM可以有效地筛选出高质量的样本，从而构建一个精简高效的训练数据集(LIMR)。
实验结果：小样本高性能
实验结果显示，包含1389个样本的LIMR数据集，其性能与包含8523个样本的完整数据集相当甚至更优。与随机抽样和线性进展分析等基线方法相比，LIMR在多个基准测试（MATH500、AIME2024和AMC2023）上均取得了显著的性能提升。这有力地证明了LIM方法在提升RL训练数据效率方面的有效性。
RL与SFT的对比：小模型的优势
进一步的对比实验表明，在数据稀疏且模型较小的情况下，结合LIM方法的强化学习优于监督微调(SFT)。即使只有约1000个样本，LIMR在AIME、AMC23和MATH500上的准确率也显著高于SFT方法。这表明，在资源受限的情况下，选择合适的数据并结合高效的RL训练策略，可以有效提升小模型的推理能力。
结论：数据质量是关键
这项研究的核心结论是：在强化学习训练中，提升模型推理能力的关键在于优化数据质量，而不是简单地增加数据规模。LIM方法为高效的RL训练提供了一种新的解决方案，并为理解RL训练动态提供了重要的理论和实践指导。该研究有望推动RL在LLM训练中的应用，并为资源受限场景下的模型训练提供新的思路。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

# AIGC动态 # 16倍数据强化学习 # 小样本强化学习 # 强化学习数据效率 # 强化学习规模律 # 无需蒸馏强化学习

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

强化学习Scaling Law错了？无需蒸馏，数据量只要1/6，效果还更好

强化学习训练：数据质量胜过规模

挑战Scaling Law

LIM方法：高效选择高质量数据

实验结果：小样本高性能

RL与SFT的对比：小模型的优势

结论：数据质量是关键

联系作者

马斯克20万块GPU炼出Grok-3，暴击DeepSeek R1数学屠榜！疯狂复仇OpenAI

微软开放3.1T token高质量数据！通用/代码/数学/问答，全领域超越开源

相关文章

暂无评论