Kimi官方复盘:k1.5复现o1的思考过程
要让模型自己探索思考范式。
原标题:Kimi官方复盘:k1.5复现o1的思考过程
文章来源:Founder Park
内容字数:7655字
Kimi复现o1的关键技术思考:从Agentic Workflow到In Context RL with Self-Critique
本文总结了Kimi技术人员在知乎上分享的复现OpenAI o1模型的关键技术思考过程。文章深入探讨了模型思考模式的探索,从最初的Agentic Workflow到最终的In Context RL with Self-Critique方法,以及对AGI和ASI的展望。
1. Agentic Workflow的局限性
文章指出,虽然Long Context的重要性早被认识到,但由于Long CoT(Chain of Thought)成本高、速度慢,并未被优先考虑。然而,性能才是最重要的因素。 作者通过分析o1的特征(例如犯错、反思、多种思考方法),结合Noam Brown和Hyung Won Chung的OpenAI视频,以及Richard Sutton的“The Bitter Lesson”,意识到Long CoT的关键作用,并最终得出结论:Agentic Workflow 因为其结构化特性,会限制模型能力,只有短期价值,最终会被模型自身能力取代。
2. o1的本质:In Context RL with Self-Critique
Kimi团队认为o1实际上是将in-context RL的完整轨迹作为一条信息进行训练。模型在Long CoT下进行题目解答的过程,就是一个RL探索过程,其输出轨迹可以表示为:s1,a1,r1,a2,r2,a3,r3,….. 其中a是解决方法(action),r是模型自我反思得到的奖励(reward)。 文章强调了o1的“self-critique”(自我批判)能力,这使得价值评估变得复杂,因为模型的错误并非总是负面价值,知错能改同样重要。
3. 训练方法:基于REINFORCE的Contextual Bandit
由于价值评估的复杂性,Kimi团队放弃了传统的PRM方法,转而将问题简化为Contextual Bandit问题,并使用REINFORCE的变种进行训练。 简单的说,就是模型做对题就加梯度,做错题就减梯度,并加入一些技巧来稳定训练过程。 一个令人惊喜的发现是:模型在RL训练过程中会自主增加token数量,提升性能。
4. 对AGI和ASI的展望
文章最后总结了整个复现过程,并对AGI和ASI进行了展望。作者认为AGI近在眼前,而RL技术是实现AGI的关键,只需给AI一个可衡量的目标,让其自行探索并通过RL提升即可。未来,这一过程将被复制到更复杂的场景中,例如模拟驾驶、内容创作、应用开发等,最终实现ASI。
联系作者
文章来源:Founder Park
作者微信:
作者简介:来自极客公园,专注与科技创业者聊「真问题」。