谷歌发布West-of-N，利用合成数据，显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：谷歌发布West-of-N，利用合成数据，显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文
关键字：解读,模型,数据,政策,人类
文章来源：夕小瑶科技说
内容字数：9597字

内容摘要：

夕小瑶科技说原创作者 | 赛博马良人类审核员 | 松果导语：论文提出了一种新的通过生成合成偏好数据来提升奖励模型质量的方法，引入了一种自我训练策略，通过筛选最优和最差候选来生成偏好对。实验证明，这种方法可以提高任何奖励模型的性能，效果类似于添加同等量的人类偏好数据。这为改善人类反馈强化学习（RLHF）在语言模型对齐上提供了新的研究方向。
引言：人类反馈对语言模型的影响在人工智能领域，语言模型的发展已经达到了令人瞩目的水平，它们能够生成流畅、连贯且在很多情况下几乎无法与人类写作有所区分的文本。然而，要使这些模型的输出与人类的价值观保持一致，就需要一种方法来引导它们产生更受人类欢迎和认可的结果。这种方法通常是通过人类反馈来实现的，即通过从人类反馈中学习（Reinforcement Learning from Human Feedback, RLHF）的方式，来调整模型的响应结果，使其更符合人类的偏好。
人类反馈在这个过程中扮演了至关重要的角色。它不仅涉及到收集数据的成本和时间，还包括如何准确地建模人类的偏好。这些偏好是主观的、复杂的，并且依赖于文本质量。因此，如何有效地生成和利用这些数据

原文链接：谷歌发布West-of-N，利用合成数据，显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文