AI训练数据成本高昂，仅剩巨头玩得起！

AIGC动态2年前 (2024)发布 AI范儿

AI训练数据成本高昂，仅剩巨头玩得起！

AIGC动态欢迎阅读

原标题：AI训练数据成本高昂，仅剩巨头玩得起！
关键字：数据,模型,美元,公司,基准
文章来源：AI范儿
内容字数：0字

内容摘要：

点击上方蓝字关注我们“随着AI训练数据成本的不断攀升，仅有资金雄厚的科技巨头如谷歌和Meta能够承担。这导致AI发展日益集中化，小型企业和学术机构难以参与竞争。专家担忧，数据获取的不平等可能抑制创新，限制AI技术的审查与研究。同时，大型科技公司通过收购版权内容或利用公共数据源，进一步巩固其在AI领域的领导地位。数据是当代尖端人工智能（AI）系统的灵魂，但其成本日益攀升，使得只有资金最雄厚的科技公司才能负担得起。
去年，OpenAI的研究员James Betker在其个人博客上发表了一篇文章，讨论了生成式AI模型的本质以及它们所训练的数据集。Betker在文章中提出，训练数据——而非模型的设计、架构或其他任何特性——是推动AI系统日益复杂和功能强大的关键因素。（见文后的“往期推荐”）
“只要在相同数据集上训练足够长的时间，几乎所有模型都会达到相同的水平，”Betker写道。
Betker的观点是否正确？训练数据是否是决定模型能力的最大因素，无论是回答问题、绘制人手还是生成逼真的城市景观？
这听起来是合理的。
统计机器生成式AI系统本质上是概率模型——一大堆统计数据。它们根据海量的示例

原文链接：AI训练数据成本高昂，仅剩巨头玩得起！