大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好

AIGC动态1年前 (2023)发布 量子位
23 0 0

大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好

AIGC动态欢迎阅读

原标题:大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好

关键字:解读,模型,人类,反馈,机器人

文章来源:量子位

内容字数:3757字

内容摘要:克雷西 发自 凹非寺量子位 | 公众号 QbitAI说起现如今训大模型的核心方法,RLHF是绕不开的话题。RLHF,即基于人类反馈的强化学习,无论是ChatGPT还是开源的LLaMA都离不开它。但其中的“H”却是一大瓶颈,因为收集高质量的人类反馈实在是太难了。那能不能交给AI来做呢?的确有人就这么干了,但能否替代RLHF一直没有定论,直到Google进行了这项研究。在一篇新发布的arXiv论文中,…

原文链接:点此阅读原文:大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...