训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」
关键字：数据,模型,政策,人工智能,研究人员
文章来源：新智元
内容字数：5506字

内容摘要：

新智元报道编辑：桃子
【新智元导读】全网高质量数据集告急！OpenAI、Anthropic等AI公司正在开拓新方法，训练下一代AI模型。全网真的无数据可用了！
外媒报道称，OpenAl、Anthropic等公司正在努力寻找足够的信息，来训练下一代人工智能模型。
前几天，OpenAI和微软被曝出正在联手打造超算「星际之门」，解决算力难题。
然而，数据也是训练下一代强大模型，最重要的一味丹药。
面对穷尽互联网的数据难题，AI初创、互联网大厂真的坐不住了。
GPT-5训练，用上了YouTube视频不论是下一代GPT-5、还是Gemini、Grok等强大系统的开发，都需要从大量的海洋数据中学习。
可以预见的是，互联网中高质量公共数据已经变得非常稀缺。
与此同时，一些数据所有者，比如Reddit等机构，制定政策阻止AI公司的访问数据。
一些高管和研究人员称，由于对高质量文本数据的需求，可能会在2年内超过供应，这可能会减缓人工智能的发展。
也包括2022年11月，就有MIT等研究人员警告，机器学习数据集可能会在2026年之前耗尽所有「高质量语言数据」。
论文地址：https://arxiv.or

原文链接：训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」