张俊林详细拆解o1：OpenAI o1完整训练过程逆向推演

AIGC动态1年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：张俊林详细拆解o1：OpenAI o1完整训练过程逆向推演
关键字：模型,能力,逻辑推理,状态,概率
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说分享来源 | 张俊林@知乎新浪微博机器学习团队 AI Lab 负责人张俊林，对OpenAI o1原理进行了非常干货的逆向工程图解。知乎原贴：https://zhuanlan.zhihu.com/p/721952915
OpenAI o1的推出称为横空出世不为过，尽管关于Q*、草莓等各种传闻很久了，用了强化学习增强逻辑推理能力这个大方向大家猜的也八九不离十，但是融合LLM和RL来生成Hidden COT，估计很少人能想到这点，而且目前看效果确实挺好的。
OpenAI奔向Close的路上越走越远，你要从o1官宣字面来看，除了“强化学习生成Hidden COT”外，基本找不到其它有技术含量的内容。Sora好歹还给出了个粗略的技术框架图，字里行间也透漏不少隐含的技术点，细心点总能发现很多蛛丝马迹，串起来之后整个背后的技术就若隐若现（若对此感兴趣可看下我之前写的分析：技术神秘化的去魅：Sora关键技术逆向工程图解。而且，尽管目前有不少公开文献在用LLM+RL增强大模型的推理能力，但几乎找不到做Hidden COT生成的工作，所以可供直接参考的内容非常少，这为分析o1进一步增添了难度

原文链接：张俊林详细拆解o1：OpenAI o1完整训练过程逆向推演