Nature最新封面：AI训练AI？也许越来越笨

AIGC动态1年前 (2024)发布大数据文摘

AIGC动态欢迎阅读

原标题：Nature最新封面：AI训练AI？也许越来越笨
关键字：模型,数据,误差,内容,尾部
文章来源：大数据文摘
内容字数：0字

内容摘要：

大数据文摘授权转载自学术头条
撰文：马雪薇
编审：佩奇当前，在愈发火热的大模型行业，Scaling Law 被证明依然奏效。
问题是，一旦由人类生成的高质量数据（如书籍、文章、照片、视频等）用尽，大模型训练又该如何进行？
目前，一个被寄予厚望的方法是“用大模型自己生成的数据来训练自己”。事实上，如果后代模型的训练数据也从网络中获取，就会不可避免地使用前代模型生成的数据。
然而，来自牛津大学和剑桥大学的研究团队及其合作者，却给这一设想“泼了一盆冷水”。
他们给出了这样一个结论：模型在训练中使用自身生成的内容，会出现不可逆转的缺陷，逐渐忘记真实数据分布，从而导致模型性能下降。
即“模型崩溃”（Model Collapse）。
相关研究论文以“AI models collapse when trained on recursively generated data”为题，已发表在权威科学期刊 Nature 上。但他们也表示，用一个旧模型生成的数据去训练一个新模型，并非不可行，但必须对数据进行严格的过滤。
在一篇同期发表的新闻与观点文章中，来自杜克大学的 Emily Wenger 认为，“论文

原文链接：Nature最新封面：AI训练AI？也许越来越笨