当数据之源干涸：AI研究的未来该如何开拓新天地？

原标题：Nature研究报告：AI的数据正在枯竭，研究人员该怎么办？
文章来源：人工智能学家
内容字数：10509字

随着人工智能（AI）技术的快速发展，特别是大型语言模型（LLMs）的崛起，研究人员正面临数据获取的挑战。本文将探讨数据耗尽现象、法律诉讼以及应对策略等方面的问题。

AI研究人员在过去十年中依赖于扩大神经网络规模与数据集来提升模型能力。然而，Epoch AI的研究表明，预计到2028年，用于训练AI模型的数据集规模将达到公共在线文本总量的上限。这意味着，AI可能会在未来四年内耗尽可用于训练的数据，导致“数据公地”危机。

由于数据所有者（如新闻出版商）逐渐收紧内容使用规则，限制网络抓取数据，这加剧了数据短缺的问题。长普（Longpre）指出，2023年，受限制的标记在主要数据集中仅占不到3%，而预计到2024年，这一比例将上升至20%-33%。

关于数据使用的法律诉讼正在增加，多个媒体公司以版权为由AI开发者。这些案件引发了“合理使用”的讨论，如果法院支持数据提供者的经济补偿请求，将进一步限制AI开发者的数据获取。

面对数据危机，AI开发者开始探索新的数据来源和策略。例如，利用社交媒体平台的内容，或使用合成数据来训练模型。OpenAI表示，合成数据的生成量巨大，但也可能导致模型的学习质量下降。

开发者们正在转向小型、高效的LLMs，专注于特定任务。这些新模型依赖于更精炼的专用数据和改进的训练技术，预计未来的AI发展将更多依赖于“更聪明的算法”，而非仅仅依赖于数据的数量。

AI领域面临的数据危机迫使研究人员和开发者重新思考数据获取和模型训练的策略。随着法律和技术的变化，AI的发展可能会朝着更加高效和专业化的方向演进。

联系作者

文章来源：人工智能学家
作者微信：
作者简介：致力成为权威的人工智能科技媒体和前沿科技研究机构

文章版权归作者所有，未经允许请勿转载。

暂无评论...