OpenAI o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读)

OpenAI o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读)

AIGC动态欢迎阅读

原标题:OpenAI o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读)
关键字:结点,答案,报告,问题,模型
文章来源:智猩猩GenAI
内容字数:0字

内容摘要:


在o1的整体框架篇中(https://zhuanlan.zhihu.com/p/773907223),我们从现有开源的论文和代码中(https://github.com/hijkzzz/Awesome-LLM-Strawberry),抽象出了o1可能的技术实现路径,如下图:这里对于这张框架图我们不再做赘述,详情可以参见上面《框架篇》的文章链接。
我们之前说过,这是一张高度抽象的框架图,旨在说明o1官方技术报告中提到的“把更多算力花在inference阶段上,以提升模型的逻辑推理能力”的含义。而从本文开始,我们将以具体的算法去扩展这张框架图的细节。
今天我们要具体扩展的,就是框架图中的Inference部分(黄色块),从框架图可知,Inference部分一般有两个作用:
作用1:直接对inference过程进行优化,具体的优化方法例如:
PRM + some search methods。其中PRM表示我们额外训练的、用于评估“模型中间步骤”而不是“模型答案结果”的奖励模型。我们在框架篇中给过使用这种优化方法的具体例子,这里不再赘述
MCTS(Monte Carlo Tree Searc


原文链接:OpenAI o1 技术初探2:使用MCTS增强推理能力(基于代码实践的解读)

联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...