RLHF不够用了，OpenAI设计出了新的奖励机制

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：RLHF不够用了，OpenAI设计出了新的奖励机制
关键字：政策,模型,人类,反馈,数据
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
机器之心编辑部OpenAI 的新奖励机制，让大模型更听话了。自大模型兴起以来，使用强化学习从人类反馈（RLHF）中微调语言模型一直是确保 AI 准确遵循指令的首选方法。
为了确保 AI 系统安全运行并与人类价值观保持一致，我们需要定义期望行为并收集人类反馈来训练「奖励模型」。这种模型通过发出期望的动作来指导 AI。但是，收集这些常规和重复任务的人类反馈通常效率不高。此外，如果安全政策发生变化，已经收集的反馈可能会过时，需要新的数据。
我们能否构建一种新的机制来完成这些任务？近日，OpenAI 公布了一种教导 AI 模型遵守安全政策的新方法，称为基于规则的奖励（Rule-Based Rewards，RBR）。
相关论文已经放出。论文标题：Rule Based Rewards for Language Model Safety
论文地址：https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf
代码链接：https://github.com/openai/safety-rbr-code-an

原文链接：RLHF不够用了，OpenAI设计出了新的奖励机制