总之,一切责任在马斯克,Over。
原标题:张俊林:Grok 3是否意味着预训练Scaling Law仍然成立?
文章来源:智猩猩GenAI
内容字数:6654字
DeepSeek与Grok 3:大模型Scaling Law的
本文探讨了近期围绕大模型Scaling Law的争议,特别是DeepSeek和Grok 3的案例,分析了预训练、RL和测试时间三种Scaling方法的性价比,并对Grok 3的巨大算力消耗提出了可能的解释。
1. 预训练阶段的Scaling Law
1.1 预训练阶段的Scaling Law仍然成立,但当数据量达到瓶颈时,提升效果的性价比会显著降低。这时,增加模型尺寸虽然能提升效果,但成本过高。
1.2 提升模型效果的Scaling方法性价比排序:Test time Scaling Law > RL Scaling Law > 预训练阶段Scaling Law。只有在没有更高性价比方法时,才会选择预训练阶段增加模型尺寸。
1.3 拥有更多GPU算力能加快实验速度,提升创新效率,但并非训练最佳模型的必要条件。
2. Grok 3基座模型
2.1 Grok 3的评测指标仅限于数学、科学和代码数据集,缺乏通用能力(如MMLU)的对比,这可能暗示其通用能力提升有限。
2.2 提升基座模型在数学和代码方面的能力,可以通过从高级模型(如DeepSeek R1)蒸馏深度思考过程数据(长COT数据)来实现,成本相对较低。
2.3 Grok 3的算力消耗是Grok 2的10倍,这可能是由于大幅增加了训练数据量(例如,增加了大量多模态数据)或大幅增加了模型尺寸。
2.4 Grok 3可能采取了增加模型尺寸的“传统”方法来提升基座模型能力,这种方法性价比低。
3. Grok 3逻辑推理版本
3.1 Grok 3的深度思考版本(对标DeepSeek R1)在评测指标上达到了领先水平。
3.2 Grok 3可能通过加大基座模型尺寸来提升RL阶段Scaling的效果,从而提升深度思考版本的能力,即使这种做法性价比不高。
3.3 DeepSeek R1基座模型过大,部署困难,这可能也是因为基座模型尺寸不足会影响深度思考模型效果。
3.4 三种Scaling Law的性价比排序:Test Time > RL > Pre-Train。但如果基座模型尺寸会影响RL和Test Time Scaling 的天花板,则可能需要先提升Pre-Train阶段的模型尺寸,再进一步提升RL和Test Time Scaling。
3.5 上述推论的前提是Grok 3的巨大算力消耗是经过深思熟虑的决策,而非仅仅基于旧观念。
总而言之,文章认为预训练阶段的Scaling Law仍然有效,但性价比已不再是最佳选择。RL和测试时间Scaling更具性价比,但它们的提升可能受限于基座模型的尺寸。Grok 3的大规模算力消耗可能源于其对基座模型尺寸与RL阶段Scaling效果之间正相关关系的依赖。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下账号,专注于生成式人工智能,主要分享技术文章、论文成果与产品信息。