1B小模型数学超过CS博士生平均分
原标题:开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law
文章来源:量子位
内容字数:4547字
Scaling Law新范式的突破与实验成果
在Hugging Face的最新研究中,Scaling Law的新范式在公开仅10天后便被逆向工程复现,并在小模型Llama 1B上取得显著成果,数学分数超过了8倍大模型的表现。这一研究团队基于DeepMind的成果进行了改进,探索了多样化验证器树搜索(DVTS)等新方法,以提升模型在复杂任务中的性能。
研究背景及方法
Hugging Face团队在Scaling Law的基础上,提出了两种主要的扩展测试时计算策略:自我优化和搜索。自我优化依赖于模型的内置能力来识别和纠正错误,而搜索方法则生成多个候选答案,通过验证器选择最佳答案。研究集中在搜索方法,因其灵活性和适应性更强。
具体来说,研究使用了三种搜索策略:Best-of-N、Beam Search和DVTS。其中,Best-of-N策略通过生成多个响应并评分,选择得分最高的答案;Beam Search则结合过程奖励模型(PRM)进行系统搜索;DVTS则通过将初始Beam拆分为子树并进行贪婪扩展,增加了解决方案的多样性。
实验设置与结果
实验使用Llama-3.2-1B-Instruct模型进行,数据集选用MATH基准测试的子集MATH-500。结果显示,多数投票策略显著优于贪婪解码基线,而引入奖励模型后的策略表现更加突出。DVTS方法的引入,尤其在处理简单和中等难度问题时表现更佳,最终动态分配策略取得最佳成绩。
未来展望与建议
研究团队指出,未来需要探索更强大的验证器,以提高模型的稳健性和泛化能力。此外,结合结构化推理与搜索过程,能够在复杂任务中获得更好的性能。而如何将该方法扩展到结构性较差或评判标准主观的任务依然是一个重大挑战。
网友们对此研究表示关注,认为这种方法更适合本地部署而非API调用,并建议在其他模型上进行尝试。整体而言,这项研究为大模型的优化提供了新的思路和方向。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破