Ilya Sutskever：预训练模式已经走到尽头

AIGC动态2年前 (2024)发布人工智能学家

来源：孔某人的低维认知原视频地址：https://x.com/vincentweisser/status/1867719020444889118先是报告正文，末尾是我的一点个人评论。首发的V1版本是用的一个语义浓缩workflow做的，但经过改写后可能会丢失一些细微的意思，影响大家咬文嚼字。所以还是重新制作了一个直译版本，就是V2。正文Ilya Sutskever:感谢组织者选择这篇论文（Sequence to Sequence Learning with Neural Networks）获奖，这让我非常高兴。我还要感谢我出色的共同作者和合作伙伴Oriol Vinyals和Quoc Le。这里有一张图片，是10年前2014年在蒙特利尔NeurIPS会议上类似演讲的截图。那是一个更加单纯的时期。这些照片展示了我们的对比：这是之前的样子，这是之后的样子。现在我们希望变得更有经验了。在这里，我想回顾一下这项工作本身，做一个10年的回顾。这项工作中很多观点是正确的，但也有一些不太准确。让我们回顾一下，看看事情是如何逐渐发展到今天的。我们将通过展示10年前同一个演讲的幻灯片来介绍我们做了什么。我们的工作可以用以下三点来总结：这是一个在文本上训练的autoregressive model（自回归模型），它是一个大型神经网络，使用了大规模数据集。就这么简单。现在让我们深入了解更多细节。这是10年前的一张幻灯片，看起来还不错——深度学习假说。我们当时提出，如果你有一个拥有10层的大型神经网络，它就能完类在一瞬间能做到的任何事情。为什么我们要特别强调人类在一瞬间能做到的事情？为什么要特别强调这一点？实际上，如果你相信深度学习的教条，即人工神经元和生物神经元是相似的或至少差异不大，而且你相信真实的神经元运行速度较慢，那么任何我们（人类）能快速完成的事情——这里我指的是全世界任何一个人——如果世界上有一个人能在一瞬间完成某项任务，那么一个10层的神经网络也能完成。这是可以推导出来的，你只需要把这些连接嵌入到你的人工神经网络中即可。我们之所以关注10层神经网络，是因为那时我们只知道如何训练这种规模的网络。如果能够突破这个层数限制，理论上就可以做更多事情。但那时我们只能做到10层，这就是为什么我们强调人类在一瞬间能做到的事情。这是演讲中的另一张幻灯片，上面写着我们的主要想法。你可能能够认出其中的一两个要点，特别是这里涉及了某种自回归的内容。那么它实际上在表达什么呢？这张幻灯片实际上在说，如果你有一个自回归模型，而且它能够很好地预测下一个token，那么它就能够获取、捕捉并掌握后续序列的正确分布。这在当时是一个相对较新的概念。虽然它并不是历史上第一个自回归神经网络，但我认为它是第一个让我们真正相信，只要训练得足够好，就能得到你想要的任何结果的自回归神经网络。在我们当时的案例中，是那个现在看来很普通，但在当时却极其大胆的翻译任务。现在我要向你们展示一些你们中很多人可能从未见过的远古历史——LSTM。对于不熟悉的人来说，LSTM是在Transformer出现之前，深度学习研究人员所使用的工具。它基本上就是一个旋转90度的ResNet。这就是LSTM，它比ResNet更早出现。它有点像一个稍微复杂一点的ResNet。你可以看到那里有一个积分器，现在被称为残差流，但还包含了一些乘法运算。它稍微复杂一些，但那就是我们当时所做的。它就是一个旋转90度的ResNet。00:05:02这个早期演讲中另一个值得强调的特点是我们使用了并行化。但这不是普通的并行化，我们使用了流水线处理，这从每个GPU一层的设置就可以看出来。使用流水线处理是明智的选择吗？现在我们知道这并不明智，但当时我们并不知道这一点。我们使用这种方法，通过8个GPU获得了3.5倍的速度提升。从某种意义上说，当时演讲的结论幻灯片是最重要的，因为它阐述了可以说是规模化假说的开端：如果你有一个非常大的数据集，并训练一个非常大的神经网络，那么成功是有保证的。如果从宽容的角度来看，这确实就是后来发生的事情。我想提到另一个想法，这是一个真正经受住了时间考验的理念。这是自我演进的核心理念，也就是连接主义（connectionism）的理念。如果你愿意相信人工神经元在某种程度上类似于生物神经元，如果你相信两者之间存在某种相似性，那么这会让你有信心相信，规模庞大的神经网络，虽然不需要达到人类大脑的规模，可能稍微小一些，但是可以被配置来完成我们人类所做的几乎所有事情。当然仍然存在差异。我差点忘了说，确实存在差异，因为人类大脑能够自我重新配置，而我们现在使用的最好的学习算法需要与参数数量相当的数据点。在这方面，人类仍然更胜一筹。说到这些大语言模型，我认为它们的发展要归功于预训练时代。预训练时代就是我们所说的GPT-2模型、GPT-3模型、scaling law的时代。我想特别感谢我的前同事们：Alec Radford、Jared Kaplan和Dario Amodei，是他们真正让这项工作成功。这引领了预训练时代的到来，这就是我们今天所看到的所有进展的驱动力——超大规模神经网络在海量数据集上的训练。00:07:56我们现在所知的预训练模式无疑将会结束。预训练将会结束。为什么会结束呢？因为虽然通过更好的硬件、更好的算法和更大的集群，计算能力在不断增长，这是毋庸置疑的。所有这些因素都在持续增加我们的计算能力。但数据并没有增长，因为我们只有一个互联网。你甚至可以说，数据就像AI领域的化石燃料一样——它是以某种方式被创造出来的，现在我们使用它，我们已经达到了数据峰值，不会再有更多了。我们必须利用现有的数据。这些数据仍然能让我们走得很远，但事实就是我们只有一个互联网。因此，我想在这里稍微推测一下未来的发展方向。实际上，我不需要推测，因为很多人都在进行推测。我会提到这些推测。你可能听说过agent这个词。这是个很常见的概念，我确信最终会有所突破，人们都认为agent将是未来发展的重要方向。另一个更具体但也更模糊的方向是合成数据。但合成数据究竟意味着什么？弄清这一点是一个巨大的挑战，我相信不同的人在这方面都取得了各种有趣的进展。还有推理时的计算，这一点最近在o1模型中得到了最生动的体现。这些都是人们试图探索预训练之后发展方向的例子，都是非常有价值的方向。00:09:53我想提到一个来自生物学的例子，我认为这个例子非常有趣。很多年前在这个会议上，我看到一个演讲者展示了一张图表，这张图表显示了哺乳动物的体型大小与脑容量之间的关系，以质量为单位。在那次演讲中，我清楚地记得他们说，在生物学中一切都很混乱，但这里有一个罕见的例子，显示了动物体型和大脑之间存在着非常紧密的关系。后来我偶然对这张图产生了兴趣，就去谷歌搜索。在谷歌图片中，我发现了一张很有意思的图。这张图里你可以看到各种哺乳动物，还有非人类灵长类动物，它们都遵循着基本相同的规律。但当你看到原人时——据我所知，原人是人类在进化过程中的近亲，包括尼安德特人、能人等等，它们都在这里——有趣的是，它们的脑容量与体重的比例关系呈现出不同的斜率。这很有意思，因为它展示了一个先例，显示生物学中确实存在着某种不同的规律。顺便说一下，我想强调的是，这个X轴是以对数形式显示的——你可以看到是从100到1000、10000、100000，同样在质量单位上是从1克、10克、100克到1000克。这说明事物确实可以呈现出不同的模式。00:12:18我们目前正在做的事情，我们一直在扩展的内容，实际上是我们最先发现如何扩展的领域。毫无疑问，这个领域的每个人都会找到前进的方向。但我想在这里用几分钟时间，谈谈更长远的未来。我们都在朝着什么方向前进？我们正在取得惊人的进展。对于那些10年前就在这个领域的人来说，你们一定记得当时一切是多么能力有限。是的，你可以说这理所当然是深度学习的功劳，但亲眼见证这一切仍然令人难以置信。如果你是在过去两年加入这个领域的，那么你可能觉得与计算机对话、它们回应你甚至与你争论都是再正常不过的事，但事实并非一直如此。我想稍微谈谈超级智能，因为这显然是这个领域的发展方向，这正是我们正在构建的东西。超级智能的特点是它将在质量上与我们现有的系统有本质的不同。在接下来的时间里，我想给你们一些具体的直觉，让你们能够自己思考它将会有多么不同。现在我们有了令人难以置信的语言模型和chat bots，它们确实能够完成一些任务，但它们也会莫名其妙地表现不可靠，在展现超人性能的evals上也会感到困惑。这确实很难调和，但最终，这些系统将真正具有主体性（agentic）。目前的系统在任何有意义的层面上都称不上是主体，这可能说得有点过，它们只是刚刚开始表现出非常、非常轻微的主体性。它们将真正具备推理能力。这里我想特别指出关于推理的一点：一个系统越是进行推理，它就变得越不可预测。我们习惯的深度学习都是非常可预测的，因为我们一直在复制人类的直觉，本质上就像是直觉反应。如果回到0.1秒的反应时间，考虑我们的大脑在做什么样的处理，那就是我们的直觉。所以我们赋予了AI一些这样的直觉。但推理是不可预测的，我们已经看到了一些早期迹象。一个明显的例子是，对于最顶尖的人类棋手来说，真正优秀的国际象棋AI的行为是不可预测的。我们将不得不应对这些高度不可预测的AI系统。它们将能够从有限的数据中理解事物，不会感到困惑。这些都是现在的重大限制。我并不是在讨论如何实现，也不是在说具体什么时候，我只是说这些都会发生。当这些特性与自我意识结合在一起时——这是必然的，因为自我意识是系统发展的关键组成部分，它是我们自己世界模型中不可或缺的要素——当所有这些特质结合在一起时，我们将拥有与今天完全不同特质和属性的系统。当然，它们将具有令人难以置信的惊人能力。但是这样的系统会带来什么样的问题，我就留给大家去想象了，这与我们现在习惯的完全不同。可以说，预测未来确实是不可能的。各种可能性都存在，就用这个振奋人心的注解作为结束吧。非常感谢。00:16:44观众1:现在到了2024年，您认为是否还有其他与人类认知相关的生物结构值得以类似方式探索？或者您个人感兴趣的方向？Ilya Sutskever:我是这样看这个问题的：如果你或某个人有特定的见解，觉得我们都太过肤浅了，因为大脑显然在做一些我们还没有实现的事情，而这些是可以做到的，那么他们就应该去追求它。就我个人而言，我并没有这样的见解。不过，这要取决于你从什么抽象层次来看待问题。也许我可以这样说：人们一直很渴望开发生物启发式AI。从某种程度上说，你可以说生物启发式AI已经取得了惊人的成功，因为所有的深度学习本质上都是生物启发式AI。但另一方面，这种生物启发其实非常、非常有限。说到底，就是让我们使用神经元，这就是生物启发的全部内容了。而更详细的生物启发一直很难实现。但我不会排除这种可能性，我认为如果有人有特殊的见解，他们可能会发现一些有用的东西。观众2:我想问一个关于自动纠正的问题。你刚才提到推理可能是未来模型的一个核心特征，也可能是一个区分因素。我们在海报展示中看到，对于现今模型的幻觉问题，但我们现在分析模型是否产生幻觉时，因为没有推理能力，所以只能用统计分析，比如看某个标准差之类的方法。那么你觉得，在未来，具备推理能力的模型是否能够自我纠正呢？这会不会成为未来模型的一个核心特征？这样就能减少幻觉的发生，因为模型能够通过推理来识别自己什么时候在产生幻觉。呃…这个问题说得通吗？Ilya Sutskever:对，答案也是肯定的。我觉得你描述的这种情况是非常有可能的。嗯…你其实可以去验证一下。说不定这种情况已经在今天的一些早期推理模型现了，我不太确定。但从长远来看，为什么不呢？观众2: 对，有点像Microsoft Word的自动纠正功能，这是个核心功能。Ilya Sutskever:嗯，但是把它称为自动纠正实在是大大低估了它。当你说到自动纠正的时候…这个功能远不止于此。不过撇开这一点不说，答案是肯定的。00:20:04观众3:我很喜欢结尾留下的悬念。它们会取代我们吗？它们是否比我们更优越？它们需要权利吗？这是一个由智能衍生出的新的智人物种。我觉得搞强化学习的人认为我们需要给这些智能体权利。我还有个不相关的问题：怎样创造正确的激励机制，让人类能够以一种能赋予AI与智人同样的方式来创造它？Ilya Sutskever:你知道，这些确实是人们应该多思考的问题。但关于应该创造什么样的激励机制这个问题，我觉得我不好说。我不敢确定地回答，因为你说的是创造某种从上层设计的管理体系，这个我不了解。观众3: 也可以是加密货币，比如说有Bittensor之类的。Ilya Sutskever:我觉得我不适合评论加密货币，但是你知道，你描述的情况是有可能发生的。确实，我们可能会有这样的AI——它们只是想和我们共存并拥有权利。也许这样会很好。但我不知道，事情实在太难预测了，我不敢妄加评论，不过我支持这样的思考。00:22:13观众4:你认为LLMs能否在分布外进行多跳推理泛化？Ilya Sutskever:这个问题假设答案是是或否，但实际上不应该用是或否来回答。因为我们需要先明确：什么是分布外泛化？什么是分布内？什么是分布外？既然这是一个关于技术发展历程的演讲，我要说在很久以前，在人们使用深度学习之前，他们在机器翻译中使用的是字符串匹配和n-gram这样的技术。人们使用统计短语表，你能想象吗？他们有数万行复杂的代码，这真的是难以理解的。那时候，泛化的含义仅仅是指是否与数据集中的词组完全一致。现在我们可能会说，好的，我的模型在数学竞赛中取得了高分，但也许这些数学问题，或者互联网论坛上的某些讨论涉及了相同的想法，因此这可能是记忆的结果。你可以说这可能是分布内的，可能是记忆。但我也认为，我们对什么算作泛化的标准已经提高了很多，如果你持续关注的话，这种提高是相当大的，是戏剧性的，是难以想象的。所以我认为答案是：在某种程度上，LLM可能没有人类那么好。我认为人类确实能更好地泛化，但同时LLM确实也能在某种程度上进行分布外泛化。我认为这是一个拓扑学意义上的答案。个人评论观点并不算是新观点，但在这个GenAI领域观点的时代，能够下判断、能够选择一种思路站台，则有着另外的意义。当然有人说Ilya本身去开新的公司了，肯定会说旧道路不work了，屁股决定脑袋。说不定也可能是内部分歧导致他转向别的路线然后去开了新的公司，可能是互为因果。但确实这是一个很强的bias，参考的时候需要注意。还看到有人评价说：Ilya认为应该寻找能让智力提升最快的方式，像在前面大脑重量图中，要优化这个斜率。但Ilya并没有下这个判断（明确说出来），只是用它举了一个例子，引发大家思考。Ilya提到了合成数据和推理时计算，但并没有说这就是对的路线，只是说这些值得尝试。说话滴水不漏。我现阶段也觉得合成数据和更多的推理过程是未来短时间内的主要收益来源。就像我上一篇文章o1正式版就是我心中的GPT-5所说，reasoning token的scaling law都可能出现。交流与合作如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请私信联系，获取联系方式请点击 ->联系方式。本文于2024.12.14首发于微信公众号。阅读报告全文，请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告Air Street Capital《2024 年人工智能现状报告》未来今日研究所：2024 技术趋势报告 – 广义计算篇科睿唯安中国科学院 2024 研究前沿热度指数报告文本到图像合成：十年回顾《以人为中心的大型语言模型（LLM）研究综述》经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告理解世界还是预测未来？世界模型的综合综述Google Cloud CSA2024 AI 与安全状况调研报告英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告国际原子能机构 2024 聚变关键要素报告 – 聚变能发展的共同愿景国际可再生能源署 IRENA2024 年全球气候行动报告Cell: 物理学和化学、人工智能知识领域的融合智次方 2025 中国 5G 产业全景图谱报告未来今日研究所：2024 技术趋势报告 – 移动性，机器人与无人机篇Deepmind：AI 加速科学创新发现的黄金时代报告PitchBookNVCA2024 年第三季度全球风险投资监测报告德科 2024 年未来全球劳动力报告高工咨询 2024 年协作机器人产业发展蓝皮书国际能源署 IEA2024 年全球能源效率报告基因慧基因行业蓝皮书 2024 – 2025普华永道 PwC2024 全球经济犯罪调查英国报告 – 智对风险直面挑战中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书中移智库 2024 先进感知新技术及新应用白皮书智次方研究院 2025 中国 AIoT 产业全景图谱报告未来今日研究所：2024 技术趋势报告 – 人工智能篇国际电联：迈向衡量数字经济的通用框架的路线图联合国粮食与农业组织：2024 年世界粮食安全和营养状况大语言模型综述李飞飞等，AI 智能体：探索多模式交互的前景综述哈尔滨工业大学 – ChatGPT 调研报告2024《美国核部署战略报告》最新文件清华大学：AIGC 发展研究 3.0 发布版 b 版OpenAI：2024 年 OpenAI o1 大模型技术报告Verizon2024 年世界支付安全报告皇家学会哲学学报从复杂系统角度评估人工智能风险复旦大学大模型 AI 代理的兴起和潜力：综述经合组织 OECD2024 年气候行动监测报告Wevolver2024 年边缘人工智能现状报告 – 探索各行业边缘 AI 应用动态2024 全球人形机器人产品数据库报告 – 人形机器人洞察研究 BTIResearch《全球金融稳定报告》把舵定航不确定性、人工智能与金融稳定瑞士洛桑联邦理工学院《人工智能中的 – 创造力：进展与挑战》《你所需要知道的理 – 论：人工智能、人类认知与决策》牛津大学最新 53 页报告世界经济论坛新兴技术时代的网络弹性导航：应对复杂挑战的协作解决方案 2024ADL 理特咨询 2024 汽车出行未来展望报告2024 中国硬科技创新发展白皮书 – 开辟未来产业新赛道科学时代的大语言模型中的人工智能Gartner2025 年重要战略技术趋势报告CBInsights2024 年第三季度全球人工智能投融资状况报告TrendHunter2025 年全球趋势报告 – 全行业顶级创新和变革趋势前瞻天津大学 2024 大模型轻量化技术研究报告欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告国际原子能机构 2024 年世界聚变展望报告复旦大学 2024 大语言模型的能力边界与发展思考报告安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图YouGov2024 美国公众对人工智能 AI 的态度调研报告麦肯锡中国报告：《中国与世界》完整版麦肯锡全球研究所 2024 下一代竞技场报告 – 重塑全球经济的 18 个新兴行业领域Project Sid，一个旨在模拟多智能体交互以研究 AI 文明的项目德国研究与创新专家委员会德国研究创新与科技成果报告2024 年欧洲关键产业的科技重塑研究报告智能体专题报告之二 – 智能体时代来临具身智能有望成为最佳载体ActivateConsulting 2025 年顶级技术和媒体发展趋势报告兰德全球灾难风险评估斯坦福李飞飞《AI agent 综述》Agent AI 开启多模态交互新纪元中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版普华永道 2024 第五次工业研究报告迈向弹性可持续和以人为本的未来大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告Emakina 将塑造 2024 年的技术趋势报告图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平？》——Yann LeCun，附 Slides 及视频华为：2024 鸿蒙生态应用开发白皮书 V3.0（最新版）CASA：2023 第三代半导体产业发展报告大型视觉语言模型中幻觉现象的综述IEA PVPS：2024 光伏应用趋势报告（英文版）ABI Research：82 个将会或不会在 2024 年发生的技术趋势白皮书《美国反无人机系统未来趋势报告（2024 – 2029 年）》《军事自主系统：未来之路》美空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》2024 低空经济场景白皮书 v1.0战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）Artificial Intelligence Review：人工智能与物理学相遇的综述麦肯锡：全球难题，应对能源转型的现实问题欧米伽理论，智能科学视野下的万物理论新探索（研究论文）Gartner 2025 年主要战略技术趋势研究报告2024 人工智能国外大模型使用手册 + 中文大模型使用手册详解光刻巨人 ASML 成功之奥妙 – 241015CB Insights：未来变革者：2025 年九大科技趋势研究报告国际电信联盟 2023 – 2024 年联合国人工智能 AI 活动报告《人工智能能力的人类系统集成测试和评估》最新 51 页，美国防部首席数字和人工智能办公室（CDAO）2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告MHP 2024 全球工业 4.0 晴雨表白皮书世界经济论坛白皮书《AI 价值洞察：引导人工智能实现人类共同目标》瑞典皇家科学院诺贝尔物理学奖科学背景报告资料AI 智能体的崛起：整合人工智能、区块链技术与量子计算 (研究报告，书）OpenAI o1 评估：AGI 的机遇和挑战（280 页）世界知识产权组织：2024 年全球创新指数美国白宫：国家近地天体防御策略与行动计划上下滑动查看更多

阅读原文