Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对
关键字：模型,人类,围棋,氛围,观点
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：杜伟RLHF 与 RL 到底能不能归属为一类，看来大家还是有不一样的看法。
AI 大牛 Karpathy 又来科普人工智能概念了。
昨日，他发推表示，「基于人类反馈的强化学习（RLHF）只是勉强算得上是强化学习（RL）。」Karpathy 的全文解释如下：
RLHF 是训练大语言模型（LLM）的第三个（也是最后一个）主要阶段，前两个阶段分别是预训练和监督微调（SFT）。我认为 RLHF 只是勉强算得上 RL，它没有得到广泛的认可。RL 很强大，但 RLHF 却不然。
让我们看看 AlphaGo 的例子，它是使用真正的 RL 训练的。计算机玩围棋（Go）游戏，并在实现奖励函数最大化的回合（赢得比赛）中训练，最终超越了最厉害的人类棋手。AlphaGo 没有使用 RLHF 进行训练，如果它用了，效果就不会那么好。
用 RLHF 训练 AlphaGo 会是什么样子呢？首先，你要给人类标注员两个围棋棋盘的状态，然后问他们更喜欢哪一种：然后你会收集到 10 万个类似的比较，并训练一个「奖励模型」（RM）神经网络来模拟人类对棋盘状态的氛围检查（vibe check）。你要训练它同

原文链接：Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对