打破RLHF瓶颈，克服奖励！Meta发布全新后训练方式CGPO，编程水平直升5%

打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%

AIGC动态欢迎阅读

原标题：打破RLHF瓶颈，克服奖励！Meta发布全新后训练方式CGPO，编程水平直升5%
关键字：任务,模型,目标,机制,高效
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRST
【新智元导读】CGPO框架通过混合评审机制和约束优化器，有效解决了RLHF在多任务学习中的奖励和多目标优化问题，显著提升了语言模型在多任务环境中的表现。CGPO的设计为未来多任务学习提供了新的优化路径，有望进一步提升大型语言模型的效能和稳定性。近年来，随着大规模语言模型（LLMs）的发展，特别是通用大模型的应用场景愈发广泛，RLHF逐渐成为调整和优化语言模型输出的主流方法。
尽管RLHF在处理复杂任务时表现出色，但其在多任务学习（MTL）中的表现却受限于「奖励」以及多目标优化中的矛盾问题。
传统的RLHF方法依赖于线性组合的奖励模型，不仅需要人工调参，且容易导致模型被某一任务的奖励优化「误导」。
最近Meta GenAI和FAIR团队提出了一个全新的后训练范式——Constrained Generative Policy Optimization （CGPO），通过引入「混合评审机制」（Mixture of Judges, MoJ）与高效的约束优化器，全面提升了RLHF在多任务环境中的表现。论文链接：https://arxiv.org/pdf/240

原文链接：打破RLHF瓶颈，克服奖励！Meta发布全新后训练方式CGPO，编程水平直升5%