「AI数据荒」雪上加霜！MIT：网页数据的公开共享正走向衰落

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：「AI数据荒」雪上加霜！MIT：网页数据的公开共享正走向衰落
关键字：数据,网站,网页,,内容
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨
【新智元导读】人工智能系统依靠充足、高质量的训练数据来获得高性能，但MIT等机构最近的一项研究发现，曾经免费提供的数据在多个方面变得越来越难获取。随着GenAI产品开发和研究变得越来越广泛，训练数据的抓取许可也越来越成为受关注的话题。
最近，吴恩达在网站The Batch上提及了一篇有关数据许可的研究，其结果似乎让本就迫近的「AI数据荒」雪上加霜。
研究人员发现，C4、RefineWeb、Dolma等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议，曾经触手可及的开放数据越来越难以获取。
这不仅会影响商用AI模型的训练，也会对学术界和非营利机构的研究造成阻碍。
该项目的4位团队主管分别来自MIT Media Lab、Wellesley学院、AI初创公司Raive等机构。
论文地址：https://www.dataprovenance.org/consent-in-cr-paper
主持该研究的是非营利组织The Data Provenance Initiative，由来自世界各地的AI研究人员志愿加入组成。论文所涉及的数据标注以及分析全过程已经全部

原文链接：「AI数据荒」雪上加霜！MIT：网页数据的公开共享正走向衰落