1B小模型数学超过CS博士生平均分
原标题:开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law
文章来源:量子位
内容字数:4547字
Hugging Face逆向工程OpenAI的Scaling Law新范式,大幅提升小模型性能
近日,Hugging Face团队成功复现了OpenAI尚未公开实现细节的Scaling Law新范式,并开源了其扩展测试时计算的方法。该方法显著提升了小模型在数学推理任务上的性能,甚至可以与更大规模的模型媲美。
1. 突破:小模型也能取得高分
通过应用该方法,Llama 1B模型在数学分数上超过了8倍大的模型,也超过了计算机科学博士生的平均分数(40%)。Llama 3B模型的进步幅度更大,性能甚至可以与20多倍大的70B模型相媲美。这表明,通过高效的测试时计算策略,小模型也能在复杂任务中取得令人瞩目的成绩。
2. 核心技术:多样化验证器树搜索(DVTS)
Hugging Face团队基于DeepMind的研究成果,开发了多样化验证器树搜索(DVTS)方法。这是一种改进的Beam search变体,通过将初始Beam拆分为的子树,并利用过程奖励模型(PRM)进行贪婪扩展,提高了答案的多样性和整体性能,尤其在算力预算充足的情况下。
3. 三种搜索策略对比
研究中对比了三种搜索策略:Best-of-N、Beam search和DVTS。Best-of-N策略生成多个答案并选择分数最高的;Beam search系统地探索解决方案空间;DVTS则改进了Beam search的多样性。实验结果表明,DVTS在算力预算较大时性能最佳,而Beam search在算力预算较小时表现更好。最终,基于问题难度动态分配策略的方法取得了最佳成绩。
4. 实验设置与结果
实验使用了Llama-3.2-1B-Instruct作为语言模型,Llama3.1-8B-PRM-Deepseek-Data作为过程奖励模型,以及MATH-500数据集。结果显示,加入奖励模型后,所有策略的表现都有提高。加权版的Best-of-N策略优于原版,DVTS则在解决复杂问题时表现突出。
5. 未来展望与挑战
Hugging Face团队指出,未来研究方向包括:开发更强大的验证器,探索自我验证机制,在生成过程中加入中间步骤,以及扩展到结构性较差或评判标准主观的任务。此外,目前开放的流程奖励模型数量较少,需要开源社区的更多贡献。
6. 网友评论
部分网友认为该方法更适合本地部署,而非API调用,因为多次调用小模型的成本可能高于调用一次大模型。也有网友建议在其他模型系列上进行尝试。
总而言之,Hugging Face团队的这项研究为提升小模型性能提供了新的思路,也为开源社区提供了宝贵的资源和经验。该方法的成功应用,将有助于降低大模型的应用门槛,促进AI技术的普及和发展。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破