训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」

AIGC动态8个月前发布 新智元
15 0 0

训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」

AIGC动态欢迎阅读

原标题:训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
关键字:数据,模型,政策,人工智能,研究人员
文章来源:新智元
内容字数:5506字

内容摘要:


新智元报道编辑:桃子
【新智元导读】全网高质量数据集告急!OpenAI、Anthropic等AI公司正在开拓新方法,训练下一代AI模型。全网真的无数据可用了!
外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。
前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算力难题。
然而,数据也是训练下一代强大模型,最重要的一味丹药。
面对穷尽互联网的数据难题,AI初创、互联网大厂真的坐不住了。
GPT-5训练,用上了YouTube视频不论是下一代GPT-5、还是Gemini、Grok等强大系统的开发,都需要从大量的海洋数据中学习。
可以预见的是,互联网中高质量公共数据已经变得非常稀缺。
与此同时,一些数据所有者,比如Reddit等机构,制定政策阻止AI公司的访问数据。
一些高管和研究人员称,由于对高质量文本数据的需求,可能会在2年内超过供应,这可能会减缓人工智能的发展。
也包括2022年11月,就有MIT等研究人员警告,机器学习数据集可能会在2026年之前耗尽所有「高质量语言数据」。
论文地址:https://arxiv.or


原文链接:训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...