AIGC动态欢迎阅读
原标题:ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景
关键字:反馈,数据,任务,标签,基线
文章来源:机器之心
内容字数:7625字
内容摘要:
机器之心专栏
机器之心编辑部RLHF 通过学习人类偏好,能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导,得到了很高的关注,在不同环境中选择合适的人类反馈类型和不同的学习方法至关重要。
然而,当前研究社区缺乏能够支持这一需求的标准化标注平台和统一基准,量化和比较 RLHF 的最新进展是有挑战性的。
本文中,天津大学深度强化学习实验室的研究团队推出了面向现实决策场景的 Uni-RLHF 平台,这是一个专为 RLHF 量身定制的综合系统实施方案。它旨在根据真实的人类反馈提供完整的工作流程,一站式解决实际问题。论文题目:Uni-RLHF: Universal Platform and Benchmark Suite for Reinforcement Learning with Diverse Human Feedback
项目主页:https://uni-rlhf.github.io/
平台链接:https://github.com/pickxiguapi/Uni-RLHF-Platform
算法代码库:https://github.com/pickxiguapi/Clean
原文链接:ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...