原标题:Ilya错了,预训练没结束!LeCun等反击,「小模型时代」让奥特曼预言成真
文章来源:新智元
内容字数:7410字
预训练的未来:Ilya的引发争议
最近,在NeurIPS 2024大会上,前OpenAI首席科学家Ilya发表了“预训练结束了”的,迅速引发了业界的广泛关注与讨论。他认为,数据的稀缺性使得大规模预训练难以为继,然而这一观点遭到了谷歌和Meta等公司的大佬们的反对,他们认为预训练并未结束,反而还有更大的潜力待挖掘。
数据资源的潜力
Ilya的观点引发了对数据资源的重新审视。前Meta团队高级总监Dhruv Batra指出,人类的数据并未用尽,尤其是视频等非文本数据仍有巨大的潜力。当前网络上可用的文本数据只是冰山一角,音频、视频和图像等数据同样可以用于模型的预训练。
Scaling Law的变化
近年来,模型的规模和性能提升的方式发生了改变。Epoch AI的研究表明,从GPT-1到GPT-4,尽管模型规模不断增大,但增幅逐渐减小,甚至在2023年出现了规模缩小的趋势。这一现象的原因有多个,包括对推理成本的关注、蒸馏技术的应用以及Scaling Law的转变。
模型小型化的原因
1. **AI需求增加**:随着AI产品需求的激增,服务商面临的推理请求远超预期,促使模型在保持性能的同时减小规模。
2. **蒸馏技术**:通过让小模型模仿大模型的性能,蒸馏技术使得小模型表现得更强大。
3. **Scaling Law转变**:从Kaplan到Chinchilla的转变强调了数据规模的重要性,模型不必一味增大。
4. **推理效率提升**:优化推理过程使得模型在处理复杂任务时能更高效运行,从而推动了模型缩小。
未来展望
虽然当前的趋势表明模型正在向小型化发展,但并不意味着未来的模型规模会一直减小。硬件的进步可能会促使更大的模型变得更具优势,尤其是在处理复杂任务时。因此,未来的模型规模可能会恢复到甚至超过GPT-4的水平。
总的来看,当前AI发展的分水岭在于如何有效利用数据和优化模型,而Ilya的则为这一讨论提供了新的视角。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。