「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

AIGC动态1个月前发布 新智元
1 0 0

「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

AIGC动态欢迎阅读

原标题:「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落
关键字:数据,网站,网页,爬虫,内容
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:乔杨
【新智元导读】人工智能系统依靠充足、高质量的训练数据来获得高性能,但MIT等机构最近的一项研究发现,曾经免费提供的数据在多个方面变得越来越难获取。随着GenAI产品开发和研究变得越来越广泛,训练数据的抓取许可也越来越成为受关注的话题。
最近,吴恩达在网站The Batch上提及了一篇有关数据许可的研究,其结果似乎让本就迫近的「AI数据荒」雪上加霜。
研究人员发现,C4、RefineWeb、Dolma等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议,曾经触手可及的开放数据越来越难以获取。
这不仅会影响商用AI模型的训练,也会对学术界和非营利机构的研究造成阻碍。
该项目的4位团队主管分别来自MIT Media Lab、Wellesley学院、AI初创公司Raive等机构。
论文地址:https://www.dataprovenance.org/consent-in-crisis-paper
主持该研究的是非营利组织The Data Provenance Initiative,由来自世界各地的AI研究人员志愿加入组成。论文所涉及的数据标注以及分析全过程已经全部


原文链接:「AI数据荒」雪上加霜!MIT:网页数据的公开共享正走向衰落

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...