大模型「强崩溃」！Meta新作：合成数据有「剧毒」，1%即成LLM

AIGC动态1年前 (2024)发布新智元

大模型「强崩溃」！Meta新作：合成数据有「剧毒」，1%即成LLM杀手

AIGC动态欢迎阅读

原标题：大模型「强崩溃」！Meta新作：合成数据有「剧毒」，1%即成LLM
关键字：数据,模型,定理,理论,质量
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨桃子
【新智元导读】1%合成数据，就能让模型瞬间崩溃！来自Meta、NYU等机构团队证实，「微量」合成数据便让LLM弱不可堪。甚至，参数规模越大，模型崩溃越严重。1%的合成数据，就让LLM完全崩溃了？
7月，登上Nature封面一篇论文证实，用合成数据训练模型就相当于「近亲繁殖」，9次迭代后就会让模型原地崩溃。
论文地址：https://www.nature.com/articles/s41586-024-07566-y
然而，许多大佬都不同意这篇文章的方法和结论。
比如，Scale AI的CEO Alexandr Wang就很看好合成数据的前景，英伟达发布的开源模型Nemotron-4 340B甚至使用了98%的合成数据。
最近，Meta、纽约大学、UCLA机构发表的最新论文，再一次动摇了这些大佬们的结论。
论文地址：https://arxiv.org/abs/2410.04840
他们发现，即使合成数据仅仅占到总数据集的最小部分，甚至是1%的比例，仍然可能导致模型崩溃。
甚至，ChatGPT和Llama这种较大的模型，还可能放大这种「崩溃」现象。
强模型崩溃，

原文链接：大模型「强崩溃」！Meta新作：合成数据有「剧毒」，1%即成LLM