ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！
关键字：人类,模型,围棋,定义,智能
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨好困
【新智元导读】RLHF到底是不是强化学习？最近，AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示：比起那种让AlphaGo在围棋中击败人类的强化学习，RLHF还差得远呢。昨天，Andrej Karpathy又发了长推，不过用了一句很有争议的话开头——「RLHF只是勉强的RL」。
这条可谓「一石激起千层浪」，瞬间点燃了LLM社区的讨论热情。
毕竟RLHF作为刚提出没几年的方法，又新颖又有争议。一边遭受质疑，一边又在工业界和学界迅速流行。
5G冲浪的LeCun也赶来声援Karpathy，但他的话很短，只有一句——「RLHF不是真正的RL」。
RLHF最早可以追溯到OpenAI安全团队2017年发表的论文：
论文地址：https://arxiv.org/abs/1706.03741
当时，Jan Leike还在DeepMind、Dario Amodei还没创办Anthropic，而OpenAI还没all in语言模型，仍是一家研究范围更广泛的AI公司。
他们提出，通过人类反馈，让AI模型更好地学习「如何翻出一个漂亮的后空翻」。
训练时

原文链接：ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！