斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

AIGC动态欢迎阅读

原标题：斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws
关键字：模型,算法,作者,现象,函数
文章来源：大数据文摘
内容字数：0字

内容摘要：

大数据文摘授权转载自将门创投
作者：seven_
可以说，人类反馈强化学习 (RLHF) 是一把解锁大型语言模型(LLMs)涌现能力的金钥匙。它使拥有庞大参数规模的语言模型可以快速对齐到人类用户定义的偏好空间中。然而，先前的RLHF算法通常是一个复杂而脆弱的过程。
在经典的 RLHF 框架中，我们首先需要训练一个奖励模型来表示人类偏好，然后再通过在线强化学习 (online RL) 算法使用该模型来优化LLM。此类方法的突出问题是奖励过度优化现象（reward over-optimization）和奖励攻击（reward hacking）难题，虽然通过RL学习，奖励模型对LLM评估得到的性能会增加，但部署到实际场景中，性能会停滞甚至会下降。后来，有研究者提出直接对齐算法（Direct Alignment Algorithms，DAAs）来绕过奖励建模阶段，以缓解上述现象。
目前，DDA已经成为经典 RLHF pipeline的替代方案，但DAA是否存在类似的过度优化现象尚未得到很好的探索，本文介绍一篇来自斯坦福大学等研究机构的理论性工作，本文表明的观点在于，尽管 DAA 不使用单独的奖