State of GPT：大神Andrej揭秘OpenAI大模型原理和训练过程

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：State of GPT：大神Andrej揭秘OpenAI大模型原理和训练过程
关键字：模型,标记,提示,数据,基础
文章来源：人工智能学家
内容字数：0字

内容摘要：

前言
OpenAI的创始人之一，大神Andrej Karpthy刚在微软Build 2023开发者大会上做了专题演讲：State of GPT（GPT的现状）。
在这个朴实无华的题目之下，Andrej带来的是一场超级精彩的分享。
他详细介绍了如何从GPT基础模型一直训练出ChatGPT这样的助手模型（assistant model）。作者不曾在其他公开视频里看过类似的内容，这或许是OpenAI官方第一次详细阐述其大模型内部原理和RLHF训练细节。
难能可贵的是，Andrej不仅深入了细节，还高屋建瓴的抽象了大模型实现中的诸多概念，牛人的洞察就是不一样。
比如，Andrej非常形象的把当前LLM大语言模型比喻为人类思考模式的系统一（快系统），这是相对于反应慢但具有更长线推理的系统二（慢系统）而言。这只是演讲里诸多闪光点的其中一个。
并且，Andrej真的有当导师的潜力，把非常技术的内容讲得深入浅出，而又异常透彻。这个演讲完全可以让非专业人士也能理解，并且，认真看完演讲后会有一种醍醐灌顶的感觉。
这场主题演讲是如此精彩，以至于作者认为，所有关心LLM大语言模型的人都不容错过。所以，在制作

原文链接：State of GPT：大神Andrej揭秘OpenAI大模型原理和训练过程