清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神

清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神

原标题:清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
文章来源:新智元
内容字数:9177字

1B模型完胜405B?测试时扩展(TTS)带来LLM推理能力

近日,一篇来自清华、哈工大、北邮等机构的联合论文在AI领域引发轰动。研究人员通过巧妙应用计算最优的测试时扩展(TTS)策略,实现了小模型“以小胜大”的突破性进展。该研究重新定义了测试时计算,并揭示了其在提升大语言模型(LLM)推理能力方面的巨大潜力。

1. 计算最优TTS策略:奖励感知是关键

之前的研究表明,测试时扩展可以通过在推理时分配额外算力来增强LLM的推理能力。但如何最优地分配这些计算资源?研究人员发现,计算最优的TTS策略应当是奖励感知的。他们将奖励函数整合到策略中,使计算最优扩展能够适应策略模型、提示词和奖励函数,从而提供更普适的框架。

2. 绝对问题难度标准胜过分位数

研究发现,使用基于Pass@1准确率的分位数来衡量问题难度并不有效。不同策略模型的推理能力差异导致了这一问题。因此,研究人员选择使用基于Pass@1准确率的绝对阈值来定义问题难度等级:简单、中等和困难。

3. PRM选择与TTS策略的最佳组合

实验结果表明,PRM(过程奖励模型)的选择对TTS的效果至关重要,最佳TTS策略会随着使用的PRM而变化。PRM在不同策略模型和任务间的泛化能力是一个挑战,尤其是在更复杂的任务上。研究发现,PRM的过程监督能力越强,其在TTS中通常能带来更好的性能。最佳TTS方法(BoN或基于搜索的方法)也取决于策略模型的大小。

4. 小模型的逆袭:1B模型超越405B

研究人员通过实验验证了小模型在计算最优TTS策略下的巨大潜力。0.5B模型在数学任务上超越了GPT-4o;3B模型超越了405B模型;7B模型甚至胜过了o1和DeepSeek R1。这表明,小模型通过计算最优TTS策略,可以显著提升推理性能,甚至超越大型模型。

5. 计算最优TTS与其他方法的比较

与CoT(思维链)和多数投票等方法相比,计算最优TTS的效率更高,推理性能也得到显著提升。然而,随着策略模型参数数量的增加,TTS的改进效果逐渐减小。这表明TTS的有效性与策略模型的推理能力密切相关。

6. TTS与基于长CoT方法的对比

研究表明,TTS比直接在MCTS生成数据上应用RL或SFT的方法更有效,但在更复杂的任务上效果不如从强大的推理模型中进行蒸馏的方法。

7. 结论

这项研究证明了计算最优TTS策略在增强LLM推理能力方面的巨大潜力。它为提升小模型性能,以及更有效地利用计算资源提供了新的思路,也为未来的LLM研究提供了重要的参考价值。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...