DPO与PPO：揭开大语言模型对齐的未来之谜

作者认为DPO不能干掉PPO，至少现在还不能。

原标题：DPO vs PPO：深度解读谁是LLM Alignment的未来
文章来源：智猩猩GenAI
内容字数：4505字

本文探讨了 DPO（Direct Preference Optimization）与 PPO（Proximal Policy Optimization）在大语言模型（LLM）对齐中的应用与比较。DPO 因其简化的流程与较低的计算成本而受到关注，但它是否能真正取代 PPO 是一个值得深入探讨的问题。

PPO 的最优策略在 KL 正则化约束下可以被表示为一个特定形式，其中包含分区函数用于归一化。通过重参数化，DPO 隐式建模了奖励函数，试图简化这一过程。

尽管 DPO 在某些学术基准测试中表现出色，但它在实际应用中仍存在若干缺陷：

Distribution Shift: DPO 假设参考分布能够准确捕捉偏好数据分布，但实际上二者常常存在偏移，可能导致模型在分布外数据上的表现不佳。
Reward Hacking Risk: DPO 的隐式建模可能引发额外的 reward hacking 问题，尤其在偏好数据不足时，可能误判分布外样本。
Lack of Partition Function: DPO 省略了分区函数的影响，这一假设在训练分布稀疏或偏移时可能不成立，导致优化目标偏差。

通过一个披萨店的实例，PPO 像一个严谨的朋友，帮助用户做出经过深思熟虑的选择，而 DPO 则像一个随意的朋友，可能会推荐一些不合理的选项，导致用户后悔。PPO 的归一化确保了概率分布的合理性，而 DPO 的简化可能导致过高权重赋予稀有选项。

综上所述，尽管 DPO 具有一定的优势，但在当前的技术背景下，PPO 仍然在许多方面表现得更加稳健。因此，DPO 不能完全取代 PPO，尤其是在处理复杂的分布和偏好数据时。

文章来源：智猩猩GenAI
作者微信：
作者简介：智猩猩旗下公众号之一，深入关注大模型与AI智能体，及时搜罗生成式AI技术产品。

文章版权归作者所有，未经允许请勿转载。

暂无评论...