大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手

AIGC动态1个月前发布 新智元
5 0 0

大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手

AIGC动态欢迎阅读

原标题:大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手
关键字:数据,模型,定理,理论,质量
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:乔杨桃子
【新智元导读】1%合成数据,就能让模型瞬间崩溃!来自Meta、NYU等机构团队证实,「微量」合成数据便让LLM弱不可堪。甚至,参数规模越大,模型崩溃越严重。1%的合成数据,就让LLM完全崩溃了?
7月,登上Nature封面一篇论文证实,用合成数据训练模型就相当于「近亲繁殖」,9次迭代后就会让模型原地崩溃。
论文地址:https://www.nature.com/articles/s41586-024-07566-y
然而,许多大佬都不同意这篇文章的方法和结论。
比如,Scale AI的CEO Alexandr Wang就很看好合成数据的前景,英伟达发布的开源模型Nemotron-4 340B甚至使用了98%的合成数据。
最近,Meta、纽约大学、UCLA机构发表的最新论文,再一次动摇了这些大佬们的结论。
论文地址:https://arxiv.org/abs/2410.04840
他们发现,即使合成数据仅仅占到总数据集的最小部分,甚至是1%的比例,仍然可能导致模型崩溃。
甚至,ChatGPT和Llama这种较大的模型,还可能放大这种「崩溃」现象。
强模型崩溃,


原文链接:大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...