Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

AIGC动态1年前 (2025)发布新智元

588 0 0

原标题：Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生
文章来源：新智元
内容字数：6409字

月之暗面Kimi k1.5：多模态模型性能突破，中文编程语言或将崛起

近日，月之暗面团队发布了其最新的多模态思考模型Kimi k1.5，在数学、代码和多模态推理能力上达到了与OpenAI o1满血版持平的水平，这是OpenAI之外首个达到此成就的模型。这一突破，可能预示着中文编程语言将迎来发展黄金期。

1. Kimi k1.5的性能突破

Kimi k1.5在Long CoT模式下，其数学、代码和多模态推理能力与OpenAI o1满血版相当，在Short CoT模式下则大幅领先GPT-4o和Claude 3.5。这标志着中国AI技术在全球范围内取得了重大进展。

2. 技术创新：long2short思维链和强化学习

Kimi k1.5的核心技术创新在于其“long2short”思维链和强化学习的应用。团队巧妙地将长CoT模型的推理先验转移到短CoT模型中，并通过最短筛选采样和DPO（Direct Preference Optimization）等技术提升模型效率和性能。这突破了传统语言模型在数据量方面的限制，实现了计算规模的有效扩展。

3. 四大关键要素

Kimi k1.5的设计和训练基于四个关键要素：长上下文扩展、改进的策略优化、简化框架和多模态能力。其中，简化框架回归第一性原理，避免了复杂的蒙特卡洛树搜索等技术，实现了高效的性能。

4. 强化学习基础设施的创新

Kimi团队设计了一种迭代同步的RL框架，并引入了部分回滚（Partial Rollout）技术，有效地减少了计算开销，优化了复杂推理轨迹的处理。混合部署策略则提高了资源利用率。

5. 实验结果与未来展望

Kimi k1.5在多个权威基准测试（包括MMLU、HumanEval-Mul、LiveCodeBench、MMMU等）中取得了显著的突破。团队未来将继续发力多模态推理，迭代出更强大的Kn系列模型，进一步提升模型在更多模态和领域的通用能力。

6. 总结

Kimi k1.5的成功，不仅证明了中国AI技术的快速发展，也为多模态模型的发展提供了新的方向。其“long2short”思维链和强化学习等技术创新，为未来AI模型的研发提供了宝贵的经验。随着Kimi系列模型的不断迭代，我们有理由期待中文编程语言在全球范围内的崛起。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

# AIGC动态 # Kimi模型 # o1模型 # Scaling Laws # 多模态强化学习 # 大规模模型训练

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

月之暗面Kimi k1.5：多模态模型性能突破，中文编程语言或将崛起

联系作者

薛定谔的猫，竟然活了23.3333······分钟

不到4小时，谷歌Gemini写完10万字商业战略书籍！人类全程没碰一个字

相关文章

暂无评论