AIGC动态欢迎阅读
原标题:Nature最新封面:AI训练AI?也许越来越笨
关键字:模型,数据,误差,内容,尾部
文章来源:大数据文摘
内容字数:0字
内容摘要:
大数据文摘授权转载自学术头条
撰文:马雪薇
编审:佩奇当前,在愈发火热的大模型行业,Scaling Law 被证明依然奏效。
问题是,一旦由人类生成的高质量数据(如书籍、文章、照片、视频等)用尽,大模型训练又该如何进行?
目前,一个被寄予厚望的方法是“用大模型自己生成的数据来训练自己”。事实上,如果后代模型的训练数据也从网络中获取,就会不可避免地使用前代模型生成的数据。
然而,来自牛津大学和剑桥大学的研究团队及其合作者,却给这一设想“泼了一盆冷水”。
他们给出了这样一个结论:模型在训练中使用自身生成的内容,会出现不可逆转的缺陷,逐渐忘记真实数据分布,从而导致模型性能下降。
即“模型崩溃”(Model Collapse)。
相关研究论文以“AI models collapse when trained on recursively generated data”为题,已发表在权威科学期刊 Nature 上。但他们也表示,用一个旧模型生成的数据去训练一个新模型,并非不可行,但必须对数据进行严格的过滤。
在一篇同期发表的新闻与观点文章中,来自杜克大学的 Emily Wenger 认为,“论文
联系作者
文章来源:大数据文摘
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...