复旦发布层次性奖励学习框架，增强大模型人类偏好对齐

AIGC动态1年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：复旦发布层次性奖励学习框架，增强大模型人类偏好对齐
关键字：方面,任务,框架,人类,模型
文章来源：夕小瑶科技说
内容字数：9099字

内容摘要：

夕小瑶科技说原创作者 | 松果引言：人类反馈中的层次化奖励在强化学习中的新探索在人工智能领域，强化学习（Reinforcement Learning, RL）一直是实现智能体自主学习的关键技术之一。通过与环境的交互，智能体能够自我优化其行为策略，以获得更多的奖励。然而，当涉及到复杂的人类偏好时，传统的强化学习方法面临着挑战。这些挑战主要源于人类监督信号的不一致性和稀疏性，这使得智能体难以准确地对齐人类的期望。
为了解决这一问题，研究者们提出了从人类反馈中学习的强化学习（Reinforcement Learning from Human Feedback, RLHF）方法。RLHF通过利用人类标注的比较数据来微调大语言模型（LLMs），以更好地与人类偏好对齐。然而，人类标注在评估两个或更多模型输出时可能存在不一致和不可靠的问题。这些问题导致了RLHF中不稳定的奖励信号，而稳定的奖励是成功强化学习的关键。
为了应对这些挑战，本文介绍了一种新的框架——ALARM（Align Language Models via Hierarchical Rewards Modeling），它是首个在RL

原文链接：复旦发布层次性奖励学习框架，增强大模型人类偏好对齐