深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐
关键字：报告,模型,复旦,数据,团队
文章来源：机器之心
内容字数：15856字

内容摘要：

机器之心专栏
机器之心编辑部继第一份大模型对齐技术报告（Secrets of RLHF in Large Language Models Part I）获 NeurIPS 2023 workshop best paper 后，第二份报告强势归来，复旦语言和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中，复旦团队揭示了 RLHF 在大语言模型中的基本框架，并深入分析了 PPO 算法的内部机制，特别是 PPO-max 的高级版本在策略模型训练稳定性中的关键作用。
现在，复旦团队进一步挖掘 RLHF 的潜力，重点关注奖励模型（Reward Model）在面对实际应用挑战时的表现和优化途径。Secrets of RLHF in Large Language Models Part I: PPO 论文链接：https://arxiv.org/pdf/2307.04964.pdf
Secrets of RLHF in Large Language Models Part II: Reward Modeling 论文链接：https://arxiv.org/abs/2

原文链接：深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐