标签：反馈

大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好

克雷西发自凹非寺量子位 | 公众号 QbitAI说起现如今训大模型的核心方法，RLHF是绕不开的话题。RLHF，即基于人类反馈的强化学习，无论是ChatGPT还是开源的LL...

3年前 (2023)

1 23