Nature 重磅论文：用 AI 生成的数据训练 AI，会让大模型崩溃

AIGC动态1年前 (2024)发布 Founder Park

AIGC动态欢迎阅读

原标题：Nature 重磅论文：用 AI 生成的数据训练 AI，会让大模型崩溃
关键字：模型,数据,误差,概率,函数
文章来源：Founder Park
内容字数：0字

内容摘要：

文章转载自「新智元」。我们知道，训练大模型需要大量的数据积累，随着技术的发展，高质量数据逐渐成为AI进步的强烈需求。
面对这样的情况下，为了提升模型能力，人们开始使用AI生成的数据返回再次训练AI，并没有怀疑这种行为是否会出现问题。
不过，最新研究发现，用 AI 生成的数据训练 AI，模型可能会崩溃。
牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文，今天登上了 Nature 封面。如果放任大模型用自动生成的数据训练自己，AI 可能会自我退化，在短短几代内将原始内容迭代成无法挽回的胡言乱语。如今，LLM 已经强势入侵了人类的互联网，极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的，我们用网络数据训练出的 GPT-n，会发生什么？
研究者发现，如果在训练中不加区别地使用 AI 产生的内容，模型就会出现不可逆转的缺陷——原始内容分布的尾部（低概率）会消失。
这种效应，被称为「模型崩溃」。换句话说，合成数据就像是近亲繁殖，会产生质量低劣的后代。
模型崩溃在 LLM、变分自编码器 VAE 和高斯混合模型 GMM 中，都可能会发生。
有网友认为，是时候敲响警钟了

原文链接：Nature 重磅论文：用 AI 生成的数据训练 AI，会让大模型崩溃