DPO与PPO:揭开大语言模型对齐的未来之谜

作者认为DPO不能干掉PPO,至少现在还不能。

DPO与PPO:揭开大语言模型对齐的未来之谜

原标题:DPO vs PPO:深度解读谁是LLM Alignment的未来
文章来源:智猩猩GenAI
内容字数:4505字

从 PPO 到 DPO 的推导与比较

本文探讨了 DPO(Direct Preference Optimization)与 PPO(Proximal Policy Optimization)在大语言模型(LLM)对齐中的应用与比较。DPO 因其简化的流程与较低的计算成本而受到关注,但它是否能真正取代 PPO 是一个值得深入探讨的问题。

1. PPO 的最优策略形式

PPO 的最优策略在 KL 正则化约束下可以被表示为一个特定形式,其中包含分区函数用于归一化。通过重参数化,DPO 隐式建模了奖励函数,试图简化这一过程。

2. DPO 的潜在缺陷

尽管 DPO 在某些学术基准测试中表现出色,但它在实际应用中仍存在若干缺陷:

  • Distribution Shift: DPO 假设参考分布能够准确捕捉偏好数据分布,但实际上二者常常存在偏移,可能导致模型在分布外数据上的表现不佳。
  • Reward Hacking Risk: DPO 的隐式建模可能引发额外的 reward hacking 问题,尤其在偏好数据不足时,可能误判分布外样本。
  • Lack of Partition Function: DPO 省略了分区函数的影响,这一假设在训练分布稀疏或偏移时可能不成立,导致优化目标偏差。

3. 具体实例分析

通过一个披萨店的实例,PPO 像一个严谨的朋友,帮助用户做出经过深思熟虑的选择,而 DPO 则像一个随意的朋友,可能会推荐一些不合理的选项,导致用户后悔。PPO 的归一化确保了概率分布的合理性,而 DPO 的简化可能导致过高权重赋予稀有选项。

总结

综上所述,尽管 DPO 具有一定的优势,但在当前的技术背景下,PPO 仍然在许多方面表现得更加稳健。因此,DPO 不能完全取代 PPO,尤其是在处理复杂的分布和偏好数据时。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止