Nature封面:AI训练AI,越训越离谱

Nature封面:AI训练AI,越训越离谱

AIGC动态欢迎阅读

原标题:Nature封面:AI训练AI,越训越离谱
关键字:模型,数据,报告,误差,语言
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
机器之心编辑部训练数据是用 GPT-4o 生成的?那质量不好说了。我们知道,大模型面临的三大挑战是算法、算力和数据。前两者靠优化升级,后者靠积累。随着技术的不断发展,高质量数据已经逐渐成为最大的瓶颈。
在很多新模型上,人们为了提升模型能力,都采用了使用 AI 生成数据来训练的方式。人们普遍认为,使用合成数据可以显著提升模型质量。
不过,最新的研究认为,使用 AI 生成的数据并不是什么好办法,反而可能会让模型陷入崩溃。
今天发表在学术顶刊《自然》杂志的封面研究认为,如果放任大模型用自动生成的数据训练自己,AI 可能会自我退化,在短短几代内将原始内容迭代成无法挽回的胡言乱语。这篇由牛津大学等机构提交的研究,强调了由于自我训练导致人工智能模型崩溃(Model Collapse)的风险,论证了原始数据源和仔细数据过滤的必要性。论文链接:https://www.nature.com/articles/s41586-024-07566-y
哪种模型容易崩溃?
研究认为,当人工智能模型在生成的数据上进行过度训练时,就会发生不可逆转的模型崩溃。
「模型崩溃是指由于对合成数据进行不加区分的


原文链接:Nature封面:AI训练AI,越训越离谱

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...