全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型
关键字：模型,差额,目标,长度,对数
文章来源：机器之心
内容字数：8475字

内容摘要：

机器之心报道
编辑：Panda为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管经典 RLHF 方法的结果很出色，但其多阶段的过程依然带来了一些优化难题，其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。
近段时间已有一些研究者探索了更简单的离线算法，其中之一便是直接偏好优化（DPO）。DPO 是通过参数化 RLHF 中的奖励函数来直接根据偏好数据学习策略模型，这样就无需显式的奖励模型了。该方法简单稳定，已经被广泛用于实践。
使用 DPO 时，得到隐式奖励的方式是使用当前策略模型和监督式微调（SFT）模型之间的响应似然比的对数的对数比。但是，这种构建奖励的方式并未与引导生成的指标直接对齐，该指标大约是策略模型所生成响应的平均对数似然。训练和推理之间的这种差异可能导致性能不佳。
为此，弗吉尼亚大学的助理教授孟瑜与普林斯顿大学的在读博士夏梦舟和助理教授陈丹琦三人共同提出了 SimPO—— 一种简单却有效的离线偏好优化算法。论文标题：Si

原文链接：全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型