OpenAI o1技术初探3:如何让模型拥有自我纠错的能力

OpenAI o1技术初探3:如何让模型拥有自我纠错的能力

AIGC动态欢迎阅读

原标题:OpenAI o1技术初探3:如何让模型拥有自我纠错的能力
关键字:模型,问题,方法,结点,动作
文章来源:智猩猩GenAI
内容字数:0字

内容摘要:


在这个系列之前的文章中:
我们探索了o1(可能基于test-time scaling law)做的基本框架。
以及框架中的一块积木(靠纯inference优化来增强逻辑推理能力,我们分别列举了“PRM+some search methods”以及“MCTS”两种方法,本质上来说这两种都是MCTS-style的评估-搜索方法)在这篇文章中,我们来探索另一块更好玩的积木:“o1是如何拥有自我纠错的能力的?”。在下文中,我会基于自己的猜想,把o1的这种self-correction的能力与基于强化学习的post-training过程,以及我们上篇中所说的MCTS过程串起来。同样,这也是我在阅读相关论文,及观察o1输出结果demo后给出的自己的猜想,具有强主观性,大家选择性阅读。
01o1 demo中体现的自我纠错能力在openai o1官网的例子中(https://openai.com/index/learning-to-reason-with-llms/),当我们展开模型回复结果里thought for xx seconds选项时,我们可以看见模型在推理过程中的整个思维链过程,这时我们会发


原文链接:OpenAI o1技术初探3:如何让模型拥有自我纠错的能力

联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...