复旦发布层次性奖励学习框架,增强大模型人类偏好对齐

复旦发布层次性奖励学习框架,增强大模型人类偏好对齐

AIGC动态欢迎阅读

原标题:复旦发布层次性奖励学习框架,增强大模型人类偏好对齐
关键字:方面,任务,框架,人类,模型
文章来源:夕小瑶科技说
内容字数:9099字

内容摘要:


夕小瑶科技说 原创作者 | 松果引言:人类反馈中的层次化奖励在强化学习中的新探索在人工智能领域,强化学习(Reinforcement Learning, RL)一直是实现智能体自主学习的关键技术之一。通过与环境的交互,智能体能够自我优化其行为策略,以获得更多的奖励。然而,当涉及到复杂的人类偏好时,传统的强化学习方法面临着挑战。这些挑战主要源于人类监督信号的不一致性和稀疏性,这使得智能体难以准确地对齐人类的期望。
为了解决这一问题,研究者们提出了从人类反馈中学习的强化学习(Reinforcement Learning from Human Feedback, RLHF)方法。RLHF通过利用人类标注的比较数据来微调大语言模型(LLMs),以更好地与人类偏好对齐。然而,人类标注在评估两个或更多模型输出时可能存在不一致和不可靠的问题。这些问题导致了RLHF中不稳定的奖励信号,而稳定的奖励是成功强化学习的关键。
为了应对这些挑战,本文介绍了一种新的框架——ALARM(Align Language Models via Hierarchical Rewards Modeling),它是首个在RL


原文链接:复旦发布层次性奖励学习框架,增强大模型人类偏好对齐

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI一线开发者、互联网中高管和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备行业嗅觉与报道深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...