预训练之争：小模型时代的逆袭与未来预言的再审视

原标题：Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真
文章来源：新智元
内容字数：7410字

最近，在NeurIPS 2024大会上，前OpenAI首席科学家Ilya发表了“预训练结束了”的，迅速引发了业界的广泛关注与讨论。他认为，数据的稀缺性使得大规模预训练难以为继，然而这一观点遭到了谷歌和Meta等公司的大佬们的反对，他们认为预训练并未结束，反而还有更大的潜力待挖掘。

Ilya的观点引发了对数据资源的重新审视。前Meta团队高级总监Dhruv Batra指出，人类的数据并未用尽，尤其是视频等非文本数据仍有巨大的潜力。当前网络上可用的文本数据只是冰山一角，音频、视频和图像等数据同样可以用于模型的预训练。

近年来，模型的规模和性能提升的方式发生了改变。Epoch AI的研究表明，从GPT-1到GPT-4，尽管模型规模不断增大，但增幅逐渐减小，甚至在2023年出现了规模缩小的趋势。这一现象的原因有多个，包括对推理成本的关注、蒸馏技术的应用以及Scaling Law的转变。

1. **AI需求增加**：随着AI产品需求的激增，服务商面临的推理请求远超预期，促使模型在保持性能的同时减小规模。

2. **蒸馏技术**：通过让小模型模仿大模型的性能，蒸馏技术使得小模型表现得更强大。

3. **Scaling Law转变**：从Kaplan到Chinchilla的转变强调了数据规模的重要性，模型不必一味增大。

4. **推理效率提升**：优化推理过程使得模型在处理复杂任务时能更高效运行，从而推动了模型缩小。

虽然当前的趋势表明模型正在向小型化发展，但并不意味着未来的模型规模会一直减小。硬件的进步可能会促使更大的模型变得更具优势，尤其是在处理复杂任务时。因此，未来的模型规模可能会恢复到甚至超过GPT-4的水平。

总的来看，当前AI发展的分水岭在于如何有效利用数据和优化模型，而Ilya的则为这一讨论提供了新的视角。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

文章版权归作者所有，未经允许请勿转载。

暂无评论...