人类偏好优化算法哪家强？跟着高手一文学懂DPO、IPO和KTO

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：人类偏好优化算法哪家强？跟着高手一文学懂DPO、IPO和KTO
关键字：模型,数据,作者,算法,参数
文章来源：机器之心
内容字数：10766字

内容摘要：

选自 huggingface.co/blog
作者：Kashif Rasul 等
机器之心编译
编辑：赵阳‍尽管收集人类对模型生成内容的相对质量的标签，并通过强化学习从人类反馈（RLHF）来微调无监督大语言模型，使其符合这些偏好的方法极大地推动了对话式人工智能的发展。但由于 RLHF 是一个复杂且常常不稳定的过程，关于直接使用优化函数将人类的偏好和模型的结果进行对齐的研究成为时下的热点问题。本文是 hugging face 上的一篇博客，针对时下常见的三种人类偏好优化算法进行了性能比较。作者进行了大量的实验，旨在通过不同的模型和不同的超参数，对无需强化学习（或偏好调整）就能调整语言模型的三种可行方法进行评估。这三种优化方法是：
直接偏好优化 (Direct Preference Optimization, DPO)（https://huggingface.co/papers/2305.18290）
身份偏好优化 (Identity Preference Optimisation, IPO)（https://huggingface.co/papers/2310.12036）
Kahnem

原文链接：人类偏好优化算法哪家强？跟着高手一文学懂DPO、IPO和KTO