万字长文解析OpenAI o1 Self-Play RL技术路线

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：万字长文解析OpenAI o1 Self-Play RL技术路线
关键字：模型,方式,能力,语言,领域
文章来源：人工智能学家
内容字数：0字

内容摘要：

来源：AI大模型实验室
OpenAI 的 Self-Play RL 新模型 o1 最近交卷，直接引爆了关于对于 Self-Play 的讨论。在数理推理领域获得了傲人的成绩，同时提出了 train-time compute 和 test-time compute 两个全新的 RL Scaling Law。这篇文章用大概一万字的内容，彻底深入分析并推演一遍其中的相关技术细节。
#01
o1，而今迈步从头越首先要说一下，o1 是一个多模态模型，很多人包括 Jim Fan 都忽略了这一点：
因此它继续叫做 o，作为 omni 系列是没有任何疑问的。只不过这次发布是过于低调了，很多人都没有注意到这个拉爆了所有其他多模态框架的 78.1 分。
那么这个 o1，说明这个技术路线就是一个全新的模型 pipeline 弄出来的了。作为一个全新的多模态 Self-Play RL 模型，首秀的成绩还是相当不错的。虽然现在评价该 Self-Play 方法是否能够泛化至多模态还为时尚早，但是至少语言层面的 Reasoning 能力进化没有以牺牲其他模态的能力作为基础。
另外这个模型 official name

原文链接：万字长文解析OpenAI o1 Self-Play RL技术路线