Kimi官方复盘：k1.5复现o1的思考过程

要让模型自己探索思考范式。

原标题：Kimi官方复盘：k1.5复现o1的思考过程
文章来源：Founder Park
内容字数：7655字

Kimi复现o1的关键技术思考：从Agentic Workflow到In Context RL with Self-Critique

本文总结了Kimi技术人员在知乎上分享的复现OpenAI o1模型的关键技术思考过程。文章深入探讨了模型思考模式的探索，从最初的Agentic Workflow到最终的In Context RL with Self-Critique方法，以及对AGI和ASI的展望。

1. Agentic Workflow的局限性

文章指出，虽然Long Context的重要性早被认识到，但由于Long CoT（Chain of Thought）成本高、速度慢，并未被优先考虑。然而，性能才是最重要的因素。作者通过分析o1的特征（例如犯错、反思、多种思考方法），结合Noam Brown和Hyung Won Chung的OpenAI视频，以及Richard Sutton的“The Bitter Lesson”，意识到Long CoT的关键作用，并最终得出结论：Agentic Workflow 因为其结构化特性，会限制模型能力，只有短期价值，最终会被模型自身能力取代。

2. o1的本质：In Context RL with Self-Critique

Kimi团队认为o1实际上是将in-context RL的完整轨迹作为一条信息进行训练。模型在Long CoT下进行题目解答的过程，就是一个RL探索过程，其输出轨迹可以表示为：s1，a1，r1，a2，r2，a3，r3，….. 其中a是解决方法（action），r是模型自我反思得到的奖励(reward)。文章强调了o1的“self-critique”（自我批判）能力，这使得价值评估变得复杂，因为模型的错误并非总是负面价值，知错能改同样重要。

3. 训练方法：基于REINFORCE的Contextual Bandit

由于价值评估的复杂性，Kimi团队放弃了传统的PRM方法，转而将问题简化为Contextual Bandit问题，并使用REINFORCE的变种进行训练。简单的说，就是模型做对题就加梯度，做错题就减梯度，并加入一些技巧来稳定训练过程。一个令人惊喜的发现是：模型在RL训练过程中会自主增加token数量，提升性能。

4. 对AGI和ASI的展望

文章最后总结了整个复现过程，并对AGI和ASI进行了展望。作者认为AGI近在眼前，而RL技术是实现AGI的关键，只需给AI一个可衡量的目标，让其自行探索并通过RL提升即可。未来，这一过程将被复制到更复杂的场景中，例如模拟驾驶、内容创作、应用开发等，最终实现ASI。

联系作者

文章来源：Founder Park
作者微信：
作者简介：来自极客公园，专注与科技创业者聊「真问题」。

阅读原文

# AIGC动态 # AI模型调试 # Kimi复盘 # O1复现挑战 # 参数高效微调 # 大模型可解释性

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Kimi官方复盘：k1.5复现o1的思考过程

要让模型自己探索思考范式。

Kimi复现o1的关键技术思考：从Agentic Workflow到In Context RL with Self-Critique

1. Agentic Workflow的局限性

2. o1的本质：In Context RL with Self-Critique

3. 训练方法：基于REINFORCE的Contextual Bandit

4. 对AGI和ASI的展望

联系作者

浅谈空间智能与空间生成

6499 元起！三星发布 Galaxy S25 系列，史上最轻薄，AI 是重点，还有 One more thing！

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点