Nature封面：AI训练AI，越训越离谱

AIGC动态欢迎阅读

原标题：Nature封面：AI训练AI，越训越离谱
关键字：模型,数据,报告,误差,语言
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
机器之心编辑部训练数据是用 GPT-4o 生成的？那质量不好说了。我们知道，大模型面临的三大挑战是算法、算力和数据。前两者靠优化升级，后者靠积累。随着技术的不断发展，高质量数据已经逐渐成为最大的瓶颈。
在很多新模型上，人们为了提升模型能力，都采用了使用 AI 生成数据来训练的方式。人们普遍认为，使用合成数据可以显著提升模型质量。
不过，最新的研究认为，使用 AI 生成的数据并不是什么好办法，反而可能会让模型陷入崩溃。
今天发表在学术顶刊《自然》杂志的封面研究认为，如果放任大模型用自动生成的数据训练自己，AI 可能会自我退化，在短短几代内将原始内容迭代成无法挽回的胡言乱语。这篇由牛津大学等机构提交的研究，强调了由于自我训练导致人工智能模型崩溃（Model Collapse）的风险，论证了原始数据源和仔细数据过滤的必要性。论文链接：https://www.nature.com/articles/s41586-024-07566-y
哪种模型容易崩溃？
研究认为，当人工智能模型在生成的数据上进行过度训练时，就会发生不可逆转的模型崩溃。
「模型崩溃是指由于对合成数据进行不加区分的

原文链接：Nature封面：AI训练AI，越训越离谱