仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了
关键字：模型,研究人员,报告,数据,离线
文章来源：机器之心
内容字数：6604字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文作者熊伟是伊利诺伊香槟分校的在读博士生，其导师为 Tong Zhang 与 Nan Jiang。他的主要研究方向是 RLHF 与机器学习理论。邮箱: wx13@illinois.edu
基于人类反馈的强化学习 (RLHF) 使得大语言模型的输出能够更加符合人类的目标、期望与需求，是提升许多闭源语言模型 Chat-GPT, Claude, Gemini 表现的核心方法之一。在此之前，传统的开源解决方案是基于离线数据集的直接偏好优化 (DPO)，并获得了一系列的明显超出 SFT 的开源模型。然而，在过去的几个月中，许多研究表现，在线迭代版本的 RLHF 算法通常要明显超过他们的离线版本。与此同时，开源社区在这个领域暂时还没有一个完整的、易于复现的全流程解决方案

原文链接：仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了