ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景
关键字：反馈,数据,任务,标签,基线
文章来源：机器之心
内容字数：7625字

内容摘要：

机器之心专栏
机器之心编辑部RLHF 通过学习人类偏好，能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导，得到了很高的关注，在不同环境中选择合适的人类反馈类型和不同的学习方法至关重要。
然而，当前研究社区缺乏能够支持这一需求的标准化标注平台和统一基准，量化和比较 RLHF 的最新进展是有挑战性的。
本文中，天津大学深度强化学习实验室的研究团队推出了面向现实决策场景的 Uni-RLHF 平台，这是一个专为 RLHF 量身定制的综合系统实施方案。它旨在根据真实的人类反馈提供完整的工作流程，一站式解决实际问题。论文题目：Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback
项目主页：https://uni-rlhf.github.io/
平台链接：https://github.com/pickxiguapi/Uni-RLHF-Platform
算法代码库：https://github.com/pickxiguapi/Clean

原文链接：ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景