如果只是模仿人类玩家、AI 是无法超越人类的,但纯 RL 算法却能突破人类限制。
原标题:Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现
文章来源:AI科技评论
内容字数:13108字
AI大模型进化与强化学习的崛起:解读Andrej Karpathy最新视频
近日,Andrej Karpathy发布时长3小时的视频,深入探讨AI大模型的进化历程,特别是强化学习(RL)在其中扮演的关键角色。AI科技评论对视频后半部分进行了总结,提炼出以下关键观点:
1. 强化学习在大模型中仍处于起步阶段
视频指出,当前大语言模型的训练过程类似于教育孩子:预训练和监督微调已较为成熟,但强化学习训练仍处于早期阶段,尚未成为行业标准。虽然RL的思路简单——试错学习,但实际操作中涉及诸多细节,例如最优解选择、训练量确定、参数设置等,都需要精心设计。DeepSeek-R1论文的发布,首次公开讨论了RL在大语言模型中的应用,并强调其在提升模型推理能力方面的作用,重新激发了公众对RL训练LLM的兴趣。
2. DeepSeek-R1的突出表现
DeepSeek-R1在数学问题求解上的表现令人印象深刻。随着训练迭代次数增加,其准确率持续攀升,并展现出“思维链”(CoT)能力——模型通过更长的响应、尝试多种方法、回溯等步骤来提高准确性,这与人类解决问题的方式非常相似。虽然OpenAI的模型也运用RL技术,但DeepSeek-R1公开展示了完整的推理过程,而OpenAI则出于“蒸馏风险”的考虑,只展示结果总结。两者性能不相上下。
3. 纯RL超越人类限制
视频以AlphaGo为例,说明纯RL算法可以超越人类限制。模仿人类玩家的监督学习模型最终会遇到瓶颈,而RL则能够通过自我对弈,发现人类从未想到的策略,从而取得更好的结果。这证明了RL的强大学习能力,它不受人类表现的限制,能够探索出更优的解决方案。
4. RLHF的优势与不足
从人类反馈中进行强化学习(RLHF)能够提升模型性能,尤其在难以验证的领域(如摘要生成、诗歌创作)中效果显著。RLHF降低了数据标注难度,只需对模型生成的多个选项进行排序,无需进行复杂的创意写作。但RLHF也存在不足:其基于对人类判断的模拟,可能存在误导;强化学习容易“”模型,导致错误决策。
5. LLM的未来发展趋势
未来,LLM将具备更强的多模态能力,能够处理文本、音频和图像等多种数据类型。此外,能够执行长期任务的“智能体”将出现,人类将成为这些智能体的监督者。最后,作者提出了“瑞士奶酪”模型能力框架,提醒人们LLM并非完美无缺,会在特定情况下出现随机失败,需要谨慎使用。
联系作者
文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。