AIGC动态欢迎阅读
原标题:Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对
关键字:模型,人类,围棋,氛围,观点
文章来源:机器之心
内容字数:0字
内容摘要:
机器之心报道
编辑:杜伟RLHF 与 RL 到底能不能归属为一类,看来大家还是有不一样的看法。
AI 大牛 Karpathy 又来科普人工智能概念了。
昨日,他发推表示,「基于人类反馈的强化学习(RLHF)只是勉强算得上是强化学习(RL)。」Karpathy 的全文解释如下:
RLHF 是训练大语言模型(LLM)的第三个(也是最后一个)主要阶段,前两个阶段分别是预训练和监督微调(SFT)。我认为 RLHF 只是勉强算得上 RL,它没有得到广泛的认可。RL 很强大,但 RLHF 却不然。
让我们看看 AlphaGo 的例子,它是使用真正的 RL 训练的。计算机玩围棋(Go)游戏,并在实现奖励函数最大化的回合(赢得比赛)中训练,最终超越了最厉害的人类棋手。AlphaGo 没有使用 RLHF 进行训练,如果它用了,效果就不会那么好。
用 RLHF 训练 AlphaGo 会是什么样子呢?首先,你要给人类标注员两个围棋棋盘的状态,然后问他们更喜欢哪一种:然后你会收集到 10 万个类似的比较,并训练一个「奖励模型」(RM)神经网络来模拟人类对棋盘状态的氛围检查(vibe check)。你要训练它同
原文链接:Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对
联系作者
文章来源:机器之心
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...