原标题:张俊林从Deepseek R1看Scaling Law的未来
文章来源:人工智能学家
内容字数:16988字
大模型Scaling Law与S型智能增长曲线:一个思想实验
本文探讨了大模型发展中Scaling Law与S型智能增长曲线的关系,并提出了一些有趣的观点和推论。作者认为Scaling Law并非无限增长,而是遵循S型曲线,并以此解释大模型未来发展趋势。
Scaling Law与S型曲线
文章核心观点是:Scaling Law,无论预训练、强化学习(RL)还是测试阶段(Test Time),都遵循S型增长曲线,而非无限增长。作者认为,目前对Scaling Law的理解较为表面化,其背后的秘密可能隐藏在多个S型曲线的叠加中。
作者用三个S型曲线分别代表大模型的三种核心能力:语言智能、世界知识智能和逻辑推理智能。这三种能力的学习难度不同,对应不同的S型曲线陡峭程度(K值)。语言智能学习最容易,曲线陡峭;逻辑推理智能学习最难,曲线平缓。大模型的整体智能是这三个S型曲线的叠加,最终仍然呈现S型。
预训练阶段的Scaling Law
作者提出“能力密度”猜想,认为决定某种能力S型曲线陡峭程度的关键因素是训练数据中体现此能力的数据占比。语言能力数据占比高,“能力密度”大,所以学习容易;逻辑推理能力数据占比低,“能力密度”小,所以学习困难。因此,提升大模型智能的关键在于:增加代码、数学等逻辑推理数据占比(提高“能力密度”);将此类珍贵数据放在预训练的最后阶段(“退火”阶段)。
三阶段Scaling Law的叠加
文章将预训练、RL和Test Time三个阶段的Scaling Law分别对应一个S型曲线。预训练阶段曲线相对平缓,而RL和Test Time阶段曲线陡峭,因为它们主要提升逻辑推理能力。这三个S型曲线的叠加,构成了大模型整体智能的S型增长曲线。
作者认为,RL和Test Time阶段的Scaling Law也最终会“撞墙”,未来的关键问题在于:何时撞墙?是否有新的Scaling Law出现?以及新的Scaling Law是什么?作者甚至提出了“大模型摩尔定律”的概念:通过技术创新,不断产生新的S型Scaling Law子曲线,叠加到现有曲线中,维持大模型效果的持续提升。
总而言之,本文作者通过将S型曲线与Scaling Law结合,对大模型的未来发展提出了独特的见解。虽然许多观点是基于推论和假设,但其提出的“能力密度”猜想和对多阶段Scaling Law叠加的分析,为我们理解大模型发展提供了一种新的视角,值得进一步研究和探讨。
联系作者
文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构