引言
随着人工智能(AI)技术的快速发展,特别是大型语言模型(LLMs)的崛起,研究人员正面临数据获取的挑战。本将探讨数据耗尽现象、法律诉讼以及应对策略等方面的问题。
1. 数据耗尽现象
AI研究人员在过去十年中依赖于扩大神经网络规模与数据集来提升模型能力。然而,Epoch AI的研究表明,预计到2028年,用于训练AI模型的数据集规模将达到公在线本总量的上限。这意味着,AI可能会在未来四年内耗尽可用于训练的数据,导致“数据公地”危机。
2. 内容提供者的限制
由于数据所有者(如闻出版商)逐渐收紧内容使用规则,限制网络抓取数据,这加剧了数据短缺的问题。长普(Longpre)指出,2023年,受限制的标记在主要数据集中仅占不到3%,而预计到2024年,这一比例将上升至20%-33%。
3. 法律诉讼与合理使用
关于数据使用的法律诉讼正在增加,多个媒体公司以版权为由AI开发者。这些案件引发了“合理使用”的讨论,如果法院支持数据提供者的经济补偿请求,将进一步限制AI开发者的数据获取。
4. 寻找数据路径
面对数据危机,AI开发者开始探索的数据来源和策略。例如,利用社交媒体台的内容,或使用合成数据来训练模型。OpenAI表示,合成数据的生成量巨大,但也可能导致模型的学习质量下降。
5. 从“大而全”到“小而精”
开发者们正在转向小型、高效的LLMs,专注于特定任务。这些模型依赖于更精炼的专用数据和改进的训练技术,预计未来的AI发展将更多依赖于“更聪明的算法”,而非仅仅依赖于数据的数量。
结论
AI域面临的数据危机迫使研究人员和开发者重思考数据获取和模型训练的策略。随着法律和技术的变化,AI的发展可能会朝着更加高效和专业化的方向演进。
联系作者
章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...