编码任务性能最多提高40%。
原标题:o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
文章来源:量子位
内容字数:3798字
谷歌DeepMind等团队研究:重复采样提升大模型推理能力
本文总结了斯坦福、牛津大学和谷歌DeepMind团队合作发表的一篇论文,该论文探讨了通过重复采样来扩展大模型推理计算量的方法,并取得了显著成果。论文名为“Monkey”,灵感源于无限猴子定理,其核心思想是:通过多次采样生成多种候选答案,然后利用验证器选择最佳答案,从而提升模型性能。
1. 重复采样方法
该方法的核心步骤包括:首先,利用大模型为给定问题生成多个候选解;其次,使用特定领域的验证器(例如代码的单元测试)从生成的样本中筛选出最终答案。该方法的有效性取决于两个关键因素:覆盖率(随着样本数量增加,能够解决的问题比例)和精确度(从样本中识别正确答案的能力)。论文主要关注的是可以简单判断对错的yes/no型任务,以成功率(解决问题的比例)作为主要指标。
2. 实验结果与分析
研究团队在五个数学和编程任务(GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite)上进行了实验。结果表明:
- 覆盖率随着样本数量的增加而显著提升,在某些情况下,使用重复采样的较弱模型甚至超越了单次尝试性能更好的强大模型。
- 重复采样具有成本效益。例如,使用Gemma-2B解决CodeContests编程问题时,覆盖率提高了300倍以上。在固定FLOPs预算下,较小的Llama-3-8B-Instruct模型在某些任务上的覆盖率高于更大的Llama-3-70B-Instruct模型。
- 开源模型DeepSeek-Coder-V2-Instruct在采样较多时,其问题解决率可以达到与闭源模型GPT-4o相同的水平,但成本仅为后者的三分之一。
- 覆盖率与样本数之间通常遵循近似的幂律关系,在Llama-3和Gemma模型中表现为近似对数线性增长。
- 不同参数量、不同模型以及不同训练水平下,重复采样都能有效提升覆盖率。
3. 与其他方法的比较
有网友将该方法与o3方法进行比较。o3通过回溯动态搜索程序空间,而重复采样则依赖于静态采样和事后评价。两者都能扩展推理计算,但o3适应性更强,计算密集度更高,在需要结构化推理的任务中表现出色;而重复采样在编码/数学方面更具成本效益。
4. 局限性
需要注意的是,增加采样数量并非无限提升性能的良方。在某个临界点之后,模型性能会趋于停滞,生成的样本也会开始重复。因此,存在一个模型无法超越的最大思维水平。
5. 总结
这篇论文提出了一种基于重复采样的推理计算扩展方法,通过多次采样和验证器筛选,显著提升了大模型的推理能力和成本效益。该方法在多种模型和任务上都取得了成功,但同时也存在一定的局限性。未来研究可以进一步探索如何优化采样策略,以及如何更好地处理样本重复和性能瓶颈问题。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破