标签:反馈

大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好

克雷西 发自 凹非寺量子位 | 公众号 QbitAI说起现如今训大模型的核心方法,RLHF是绕不开的话题。RLHF,即基于人类反馈的强化学习,无论是ChatGPT还是开源的LL...
阅读原文
123