o3并非独门秘技，谷歌已发背后关键机制，方法更简单、成本更低

编码任务性能最多提高40%。

原标题：o3并非独门秘技，谷歌已发背后关键机制，方法更简单、成本更低
文章来源：量子位
内容字数：3798字

谷歌DeepMind等团队研究：重复采样提升大模型推理能力

本文总结了斯坦福、牛津大学和谷歌DeepMind团队合作发表的一篇论文，该论文探讨了通过重复采样来扩展大模型推理计算量的方法，并取得了显著成果。论文名为“Monkey”，灵感源于无限猴子定理，其核心思想是：通过多次采样生成多种候选答案，然后利用验证器选择最佳答案，从而提升模型性能。

1. 重复采样方法

该方法的核心步骤包括：首先，利用大模型为给定问题生成多个候选解；其次，使用特定领域的验证器（例如代码的单元测试）从生成的样本中筛选出最终答案。该方法的有效性取决于两个关键因素：覆盖率（随着样本数量增加，能够解决的问题比例）和精确度（从样本中识别正确答案的能力）。论文主要关注的是可以简单判断对错的yes/no型任务，以成功率（解决问题的比例）作为主要指标。

2. 实验结果与分析

研究团队在五个数学和编程任务（GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite）上进行了实验。结果表明：

覆盖率随着样本数量的增加而显著提升，在某些情况下，使用重复采样的较弱模型甚至超越了单次尝试性能更好的强大模型。
重复采样具有成本效益。例如，使用Gemma-2B解决CodeContests编程问题时，覆盖率提高了300倍以上。在固定FLOPs预算下，较小的Llama-3-8B-Instruct模型在某些任务上的覆盖率高于更大的Llama-3-70B-Instruct模型。
开源模型DeepSeek-Coder-V2-Instruct在采样较多时，其问题解决率可以达到与闭源模型GPT-4o相同的水平，但成本仅为后者的三分之一。
覆盖率与样本数之间通常遵循近似的幂律关系，在Llama-3和Gemma模型中表现为近似对数线性增长。
不同参数量、不同模型以及不同训练水平下，重复采样都能有效提升覆盖率。

3. 与其他方法的比较

有网友将该方法与o3方法进行比较。o3通过回溯动态搜索程序空间，而重复采样则依赖于静态采样和事后评价。两者都能扩展推理计算，但o3适应性更强，计算密集度更高，在需要结构化推理的任务中表现出色；而重复采样在编码/数学方面更具成本效益。

4. 局限性

需要注意的是，增加采样数量并非无限提升性能的良方。在某个临界点之后，模型性能会趋于停滞，生成的样本也会开始重复。因此，存在一个模型无法超越的最大思维水平。

5. 总结

这篇论文提出了一种基于重复采样的推理计算扩展方法，通过多次采样和验证器筛选，显著提升了大模型的推理能力和成本效益。该方法在多种模型和任务上都取得了成功，但同时也存在一定的局限性。未来研究可以进一步探索如何优化采样策略，以及如何更好地处理样本重复和性能瓶颈问题。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # AI模型压缩技术 # O3替代方案 # 低成本AI模型训练 # 谷歌O3优化机制 # 高效AI推理方法

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

o3并非独门秘技，谷歌已发背后关键机制，方法更简单、成本更低

编码任务性能最多提高40%。

谷歌DeepMind等团队研究：重复采样提升大模型推理能力

1. 重复采样方法

2. 实验结果与分析

3. 与其他方法的比较

4. 局限性

5. 总结

联系作者

李飞飞团队视觉AI突破：2025，多模态大模型迎来“视觉空间智能”时代？

GPT-5 研发一年半进度堪忧！每轮 5 亿美金训练成本打水漂，还得雇人从头“造数据”

相关文章

暂无评论

ChatGPT

玩虚拟模特？