预训练之争:小模型时代的逆袭与未来预言的再审视

预训练之争:小模型时代的逆袭与未来预言的再审视

原标题:Ilya错了,预训练没结束!LeCun等反击,「小模型时代」让奥特曼预言成真
文章来源:新智元
内容字数:7410字

预训练的未来:Ilya的引发争议

最近,在NeurIPS 2024大会上,前OpenAI首席科学家Ilya发表了“预训练结束了”的,迅速引发了业界的广泛关注与讨论。他认为,数据的稀缺性使得大规模预训练难以为继,然而这一观点遭到了谷歌和Meta等公司的大佬们的反对,他们认为预训练并未结束,反而还有更大的潜力待挖掘。

数据资源的潜力

Ilya的观点引发了对数据资源的重新审视。前Meta团队高级总监Dhruv Batra指出,人类的数据并未用尽,尤其是视频等非文本数据仍有巨大的潜力。当前网络上可用的文本数据只是冰山一角,音频、视频和图像等数据同样可以用于模型的预训练。

Scaling Law的变化

近年来,模型的规模和性能提升的方式发生了改变。Epoch AI的研究表明,从GPT-1到GPT-4,尽管模型规模不断增大,但增幅逐渐减小,甚至在2023年出现了规模缩小的趋势。这一现象的原因有多个,包括对推理成本的关注、蒸馏技术的应用以及Scaling Law的转变。

模型小型化的原因

1. **AI需求增加**:随着AI产品需求的激增,服务商面临的推理请求远超预期,促使模型在保持性能的同时减小规模。

2. **蒸馏技术**:通过让小模型模仿大模型的性能,蒸馏技术使得小模型表现得更强大。

3. **Scaling Law转变**:从Kaplan到Chinchilla的转变强调了数据规模的重要性,模型不必一味增大。

4. **推理效率提升**:优化推理过程使得模型在处理复杂任务时能更高效运行,从而推动了模型缩小。

未来展望

虽然当前的趋势表明模型正在向小型化发展,但并不意味着未来的模型规模会一直减小。硬件的进步可能会促使更大的模型变得更具优势,尤其是在处理复杂任务时。因此,未来的模型规模可能会恢复到甚至超过GPT-4的水平。

总的来看,当前AI发展的分水岭在于如何有效利用数据和优化模型,而Ilya的则为这一讨论提供了新的视角。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...