ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练

AIGC动态9个月前发布 机器之心
14 0 0

ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练

AIGC动态欢迎阅读

原标题:ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
关键字:数据,模型,对比,强度,样本
文章来源:机器之心
内容字数:7733字

内容摘要:


机器之心专栏
机器之心编辑部随着生成模型(如 ChatGPT、扩散模型)飞速发展,一方面,生成数据质量越来越高,到了以假乱真的程度;另一方面,随着模型越来越大,也使得人类世界的真实数据即将枯竭。
面对这一处境,一个近期的研究热度是,能否利用生成模型生成的假数据来辅助学习?学界对此也产生了许多争论:到底是可以左脚踩右脚(bootsrap)地实现 weak-to-strong 的不断提升,还是像鸡生蛋、蛋生鸡一样,只不过是徒劳无功?
在近期 ICLR 2024 工作中,北大王奕森团队针对这一「数据扩充」(Data Inflation)问题展开了深入研究。
他们针对对比学习(如 SimCLR、DINO、CLIP)这一常见的自监督学习场景,从理论和实验两方面分析了生成数据对于表示学习能力的影响。为了控制变量,他们保证生成模型和表示学习都只能使用同一个(无监督)真实数据集进行训练,避免了扩充数据本身带来的收益。论文题目:Do Generated Data Always Help Contrastive Learning?
论文地址:https://arxiv.org/abs/2403.12448


原文链接:ICLR 2024 | 鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...