最新研究揭示AI数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见

最新研究揭示AI数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见

原标题:最新研究揭示AI数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见
文章来源:新智元
内容字数:4713字

AI 数据来源的隐忧:权力集中与偏见放大

近年来,人工智能(AI)领域取得了令人瞩目的进展,大型语言模型(LLM)和智能体(Agent)技术日趋成熟。然而,支撑AI发展的基础——数据收集——却存在着明显的滞后和规范不足。由50多名研究人员组成的“数据溯源计划”(DPI)旨在揭示AI训练数据的来源,并为此敲响警钟。

1. 数据来源的演变与集中化:DPI审核了近4000个公共数据集,涵盖全球各地的数据。早期(2010年代初),数据集来源多样,包括百科全书、网络、议会记录等。但自2018年起,互联网成为主要数据来源,数据收集方式从精细策划转向大规模抓取。这种变化与大模型的兴起密切相关,模型性能的提升依赖于海量数据,从而导致数据来源的极度集中。

2. 科技巨头的垄断:研究发现,AI数据存在“垄断”趋势,权力逐渐集中在少数科技巨头手中。例如,多模态AI模型(如图像和视频生成模型)的训练数据中,YouTube占据了超过70%的份额,这使得谷歌等公司拥有巨大的优势。这种数据集中不仅影响公平竞争,也引发了关于数据滥用和算法偏见的担忧。

3. 数据集中带来的偏差和失真:单一数据来源会导致偏差和失真。例如,YouTube上的视频通常带有特定目的和受众群体,可能无法全面反映人类社会的真实面貌。这将导致AI模型输出结果存在偏见,例如,以西方文化为中心的输出结果。

4. 数据集的隐蔽性与许可限制:许多科技公司不公开训练数据,原因包括保护竞争优势和数据来源的不透明性。此外,数据集通常附加限制性许可,例如禁止商业用途,这限制了数据的广泛应用和学术研究。

5. 数据共享协议的排他性OpenAI和Google等公司与特定平台达成的独家数据共享协议加剧了数据集中和权力垄断,形成一种“非对称访问”的局面,不利于学术界和小型公司。

6. 地域偏见:西方世界主导:DPI的研究还揭示了AI数据中的地域偏见。超过90%的数据来自欧洲和北美,非洲等地区的数据占比极低。这导致AI模型输出结果可能反映西方中心主义的世界观,忽视其他文化和语言。

7. 未来展望:DPI的研究结果强调了规范AI数据收集和使用的必要性。为了避免AI技术加剧社会不平等和偏见,需要促进数据共享、透明化和多元化,确保AI模型的公平性和公正性。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...