热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

在月亮的暗面,闪闪发光。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

原标题:热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术
文章来源:AI科技评论
内容字数:3532字

Kimi k1.5 的成功与 SPPO 算法

本文主要讲述了 Kimi k1.5 大型语言模型的成功与其背后所使用的 SPPO 算法的关联,以及该算法发明者 Yue Wu 的学术背景和成就。

  1. Kimi k1.5 的爆红与争议

    2025年1月,Kimi k1.5 正式发布,其多模态推理能力引发热议,被认为是全球范围内除 OpenAI 外首个实现 o1 正式版多模态推理性能的公司。然而,一个月后,博主 Yue Wu 爆料 Kimi k1.5 使用的强化学习算法 SPPO,其实借鉴了他 2024 年 5 月提出的技术,引发了广泛关注。

  2. SPPO 算法详解

    SPPO 是一种自博弈算法,旨在刻画广泛意义上的人类偏好,并使用平方损失函数进行优化。它通过迭代求解,得到与人类偏好对齐良好的语言模型。 Yue Wu 指出 SPPO 与 RLHF 的策略梯度有着深层联系,其平方损失等价于普通策略梯度的半在线变体,并具有轻量级的优势,无需即时生成样本。

    研究表明,SPPO 的成功代表着大型语言模型后训练阶段的一个有趣发展趋势:离线 DPO 方法逐渐取代 RLHF,而 SPPO 等迭代 DPO 方法则将离线方法转化为在线对齐方法。 SPPO 的成功也凸显了端到端强化学习的强大作用,甚至无需额外的技巧如价值函数、广义优势估计或梯度裁剪。

    此外,SPPO 还暗中在词汇级别优化最优最大熵策略,其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

  3. Yue Wu 的学术成就和背景

    Yue Wu 拥有强大的学术背景,本科毕业于北京大学,博士毕业于加州大学洛杉矶分校,目前是普林斯顿大学人工智能实验室的博士后研究员。自 2023 年以来,他已发表 9 篇论文,其中 3 篇为第一作者。他的实习经历也十分丰富,曾在 NEC 美研院、字节美国 AI lab 和 Meta 工作,并在个性化联邦学习、药物发现和词汇级别奖励建模等领域取得了显著成果。

    与他共同发表 SPPO 论文的第一作者 Zhiqing Sun 现已加入 OpenAI。

总而言之,Kimi k1.5 的成功与 Yue Wu 团队提出的 SPPO 算法密切相关,SPPO 算法的创新性及 Yue Wu 本身强大的学术背景和研究能力,共同推动了大型语言模型技术的发展。


联系作者

文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...