大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好

AIGC动态3年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好

文章来源：量子位

内容字数：3757字

内容摘要：克雷西发自凹非寺量子位 | 公众号 QbitAI说起现如今训大模型的核心方法，RLHF是绕不开的话题。RLHF，即基于人类反馈的强化学习，无论是ChatGPT还是开源的LLaMA都离不开它。但其中的“H”却是一大瓶颈，因为收集高质量的人类反馈实在是太难了。那能不能交给AI来做呢？的确有人就这么干了，但能否替代RLHF一直没有定论，直到Google进行了这项研究。在一篇新发布的arXiv论文中，…

原文链接：点此阅读原文：大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好