杨植麟:Kimi目前最核心的任务是提升留存。
Kimi数学模型k0-math发布:提升AI思考能力的新探索
近日,在京东科技大厦,月之暗面创始人杨植麟宣布Kimi数学模型k0-math正式发布。该模型的数学能力与OpenAI的o1系列相当,预计到2024年10月,Kimi的月活跃用户将超过3600万。杨植麟强调,未来的重点在于基于强化学习的方法进行模型的扩展,而不仅限于简单的下一个token预测。
1. 强化学习与深度思考
杨植麟指出,传统的Next-Token预测方法无法培养AI的思考能力,而强化学习则能在一定程度上实现这一目标。他以解数学题为例,强调了深度思考过程的重要性。k0-math模型的设计初衷便是从数学场景出发,逐步推广到其他复杂任务。
2. k0-math模型的表现
根据多项基准测试,k0-math的初代模型在中考、高考和考研等多个数学测试中均超越了OpenAI的o1-mini和o1-preview模型。在更高难度的OMNI-MATH和AIME基准测试中,k0-math的表现也达到了o1-mini的高水平。
3. 强化模型的特点与挑战
在未来的一到两周内,k0-math的强化模型将会加入Kimi探索版,具备意图增强、信源分析和链式思考功能。杨植麟提到,强化学习中的一个核心问题是如何处理生成的学习数据的有效性和正确性,以提升模型的学习质量。
4. 控制过度思考
k0-math在思考简单问题时可能出现「过度思考」,例如在回答1+1时,会给出详细的推理过程。对此,杨植麟表示,可以通过调整奖励模型的结构来抑制这种现象。
5. 聚焦与创新
杨植麟强调,Kimi当前的核心任务是提升用户留存率,并表示在产品策略上,月之暗面采取了更为克制的做法,专注于最有潜力的领域。他认为,团队的规模控制对创新至关重要,避免变成大型企业。
6. 未来展望
杨植麟相信,预训练模型仍有发展空间,尤其是结合强化学习的方法,将大幅提升模型的性能。他认为,AI与人为标注的结合,将为未来的模型发展开辟更大的可能性。
联系作者
文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。