AIGC动态欢迎阅读
原标题:大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好
文章来源:量子位
内容字数:3757字
内容摘要:克雷西 发自 凹非寺量子位 | 公众号 QbitAI说起现如今训大模型的核心方法,RLHF是绕不开的话题。RLHF,即基于人类反馈的强化学习,无论是ChatGPT还是开源的LLaMA都离不开它。但其中的“H”却是一大瓶颈,因为收集高质量的人类反馈实在是太难了。那能不能交给AI来做呢?的确有人就这么干了,但能否替代RLHF一直没有定论,直到Google进行了这项研究。在一篇新发布的arXiv论文中,…
原文链接:点此阅读原文:大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...