3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源

AIGC动态6个月前发布 机器之心
431 0 0

「小打大」在大语言模型领域越来越常见了。

3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源

原标题:3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源
文章来源:机器之心
内容字数:11465字

Hugging Face开源小模型性能提升技术:超越大模型不再是梦

近日,Hugging Face 开源了一套通过扩展测试时计算来提升小模型性能的技术,成功让小型语言模型在某些任务上超越了更大规模的模型,引发业界广泛关注。这项技术主要基于 DeepMind 的研究成果,并结合 Hugging Face 自身开发的策略,实现了在计算资源有限的情况下显著提升模型性能的目标。

1. 小模型的崛起:测试时计算扩展

随着大语言模型训练成本的急剧增加,人们开始关注提升小模型性能的替代方案——测试时计算扩展(test-time compute scaling)。该方法通过在推理阶段增加计算量,例如给予模型更长的“思考时间”,来提高模型的准确性。OpenAI 的闭源模型 o1 就是一个成功的例子,它在困难的数学问题上展现了显著的性能提升。Hugging Face 的研究则致力于开源并复现这一技术。

2. 核心策略:搜索与学习

Hugging Face 主要采用了基于搜索的策略来扩展测试时计算,主要包括三种方法:

  1. Best-of-N:生成多个候选答案,并利用奖励模型选择得分最高的答案。进一步改进的加权 Best-of-N 方法则根据答案的出现频率加权评分。

  2. 集束搜索:系统地探索解决方案空间,通过过程奖励模型 (PRM) 逐步评估中间步骤,从而引导搜索过程。

  3. 多样性验证器树搜索 (DVTS):Hugging Face 开发的集束搜索扩展,通过将初始集束拆分为子树,提高了解决方案的多样性,尤其在计算预算较大的情况下表现出色。

3. 实验结果:小模型的惊艳表现

实验结果显示,在 MATH-500 数据集上,经过测试时计算扩展的 Llama 1B 和 3B 模型,在给予足够“思考时间”的情况下,分别超越了 Llama 8B 和 70B 模型,这无疑是小模型领域的一次重大突破。

4. 计算最优扩展策略

Hugging Face 还引入了计算最优扩展策略,根据问题难度动态选择最佳的搜索方法和超参数,以在给定的计算预算下获得最佳性能。实验表明,这种策略能够进一步提升小模型的性能。

5. 未来展望:持续改进与探索

未来研究方向包括:开发更强大的奖励模型,实现模型的自我验证能力,将思维过程融入模型推理中,以及利用搜索策略生成高质量的训练数据等。这些努力将进一步推动小模型性能的提升,降低大模型的开发和部署成本。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...