作者认为DPO不能干掉PPO,至少现在还不能。
原标题:DPO vs PPO:深度解读谁是LLM Alignment的未来
文章来源:智猩猩GenAI
内容字数:4505字
从 PPO 到 DPO 的推导与比较
本文探讨了 DPO(Direct Preference Optimization)与 PPO(Proximal Policy Optimization)在大语言模型(LLM)对齐中的应用与比较。DPO 因其简化的流程与较低的计算成本而受到关注,但它是否能真正取代 PPO 是一个值得深入探讨的问题。
1. PPO 的最优策略形式
PPO 的最优策略在 KL 正则化约束下可以被表示为一个特定形式,其中包含分区函数用于归一化。通过重参数化,DPO 隐式建模了奖励函数,试图简化这一过程。
2. DPO 的潜在缺陷
尽管 DPO 在某些学术基准测试中表现出色,但它在实际应用中仍存在若干缺陷:
- Distribution Shift: DPO 假设参考分布能够准确捕捉偏好数据分布,但实际上二者常常存在偏移,可能导致模型在分布外数据上的表现不佳。
- Reward Hacking Risk: DPO 的隐式建模可能引发额外的 reward hacking 问题,尤其在偏好数据不足时,可能误判分布外样本。
- Lack of Partition Function: DPO 省略了分区函数的影响,这一假设在训练分布稀疏或偏移时可能不成立,导致优化目标偏差。
3. 具体实例分析
通过一个披萨店的实例,PPO 像一个严谨的朋友,帮助用户做出经过深思熟虑的选择,而 DPO 则像一个随意的朋友,可能会推荐一些不合理的选项,导致用户后悔。PPO 的归一化确保了概率分布的合理性,而 DPO 的简化可能导致过高权重赋予稀有选项。
总结
综上所述,尽管 DPO 具有一定的优势,但在当前的技术背景下,PPO 仍然在许多方面表现得更加稳健。因此,DPO 不能完全取代 PPO,尤其是在处理复杂的分布和偏好数据时。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...