也许是时候寻找新的方法了?
原标题:Andrej Karpathy:神奇大模型不存在的,只是对人类标注的拙劣模仿
文章来源:机器之心
内容字数:3034字
人工智能的智能成分与RLHF的局限性
近日,OpenAI创始成员Andrej Karpathy对人工智能的「智能」成分提出质疑,引发广泛讨论。他认为,当前人们对向人工智能提出问题的理解过于夸张,实际上,人工智能主要是模仿人工标注数据的语言模型。以下是文章的主要观点:
- 人工智能的训练机制
- RLHF的实际意义
- 对RLHF的质疑
- 新的奖励机制探索
Karpathy指出,人工智能通过模仿曾经在互联网上被人类标注的数据进行训练,因此,与其说是在询问人工智能,不如说是在询问互联网的平均数据标注者。这意味着,当用户询问某个问题时,得到的答案往往是基于历史数据的简单汇总。
关于强化学习与人类反馈(RLHF),Karpathy认为这种方法仅能将模型性能提升到人类的整体水平,而非超越人类。他表示,RLHF的实用性体现在模型的判别能力上,而非生成能力。换句话说,模型更擅长于判断,而不是创造。
Karpathy曾与他人质疑RLHF的有效性,指出如果将RLHF应用于AlphaGo,可能无法取得成功。他强调,RLHF并不具备强大的强化学习特性,更多的是依赖于人类的主观反馈。
鉴于RLHF的局限性,Karpathy对OpenAI提出的基于规则的奖励(RBR)方法表示关注。RBR不仅限于安全训练,还可以适应各种任务,明确规则可以定义所需行为,这或许为大模型的性能提升提供了新的思路。
综上所述,Karpathy对当前人工智能的发展提出了深刻的反思,尤其是在智能成分和训练机制方面。他的观点提示我们在使用人工智能时,应更加关注其实际能力和局限性,而非盲目追求所谓的「超人」表现。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...