Nature 重磅论文:用 AI 生成的数据训练 AI,会让大模型崩溃

Nature 重磅论文:用 AI 生成的数据训练 AI,会让大模型崩溃

AIGC动态欢迎阅读

原标题:Nature 重磅论文:用 AI 生成的数据训练 AI,会让大模型崩溃
关键字:模型,数据,误差,概率,函数
文章来源:Founder Park
内容字数:0字

内容摘要:


文章转载自「新智元」。我们知道,训练大模型需要大量的数据积累,随着技术的发展,高质量数据逐渐成为AI进步的强烈需求。
面对这样的情况下,为了提升模型能力,人们开始使用AI生成的数据返回再次训练AI,并没有怀疑这种行为是否会出现问题。
不过,最新研究发现,用 AI 生成的数据训练 AI,模型可能会崩溃。
牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文,今天登上了 Nature 封面。如果放任大模型用自动生成的数据训练自己,AI 可能会自我退化,在短短几代内将原始内容迭代成无法挽回的胡言乱语。如今,LLM 已经强势入侵了人类的互联网,极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的,我们用网络数据训练出的 GPT-n,会发生什么?
研究者发现,如果在训练中不加区别地使用 AI 产生的内容,模型就会出现不可逆转的缺陷——原始内容分布的尾部(低概率事件)会消失。
这种效应,被称为「模型崩溃」。换句话说,合成数据就像是近亲繁殖,会产生质量低劣的后代。
模型崩溃在 LLM、变分自编码器 VAE 和高斯混合模型 GMM 中,都可能会发生。
有网友认为,是时候敲响警钟了


原文链接:Nature 重磅论文:用 AI 生成的数据训练 AI,会让大模型崩溃

联系作者

文章来源:Founder Park
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...