打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

AIGC动态欢迎阅读

原标题:打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%
关键字:任务,模型,目标,机制,高效
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:LRST
【新智元导读】CGPO框架通过混合评审机制和约束优化器,有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题,显著提升了语言模型在多任务环境中的表现。CGPO的设计为未来多任务学习提供了新的优化路径,有望进一步提升大型语言模型的效能和稳定性。近年来,随着大规模语言模型(LLMs)的发展,特别是通用大模型的应用场景愈发广泛,RLHF逐渐成为调整和优化语言模型输出的主流方法。
尽管RLHF在处理复杂任务时表现出色,但其在多任务学习(MTL)中的表现却受限于「奖励欺骗」以及多目标优化中的矛盾问题。
传统的RLHF方法依赖于线性组合的奖励模型,不仅需要人工调参,且容易导致模型被某一任务的奖励优化「误导」。
最近Meta GenAI和FAIR团队提出了一个全新的后训练范式——Constrained Generative Policy Optimization (CGPO),通过引入「混合评审机制」(Mixture of Judges, MoJ)与高效的约束优化器,全面提升了RLHF在多任务环境中的表现。论文链接:https://arxiv.org/pdf/240


原文链接:打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...