何恺明刘壮新作：消除数据集偏差的十年之战

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：何恺明刘壮新作：消除数据集偏差的十年之战
关键字：数据,腾讯,神经网络,偏差,准确率
文章来源：量子位
内容字数：3937字

内容摘要：

编辑部发自凹非寺量子位 | 公众号 QbitAIMIT新晋副教授何恺明，新作新鲜出炉：
瞄准一个横亘在AI发展之路上十年之久的问题：数据集偏差。
该研究为何恺明在Meta期间与刘壮合作完成，他们在论文中指出：
尽管过去十多年里业界为构建更大、更多样化、更全面、偏差更小的数据集做了很多努力，但现代神经网络似乎越来越善于”识破”并利用这些数据集中潜藏的偏差。
这不禁让人怀疑：我们在消除数据集偏差的战斗中，真的取得了胜利吗？
数据集偏差之战，在2011年由知名学者Antonio Torralba和Alyosha Efros提出——
Alyosha Efros正是Sora两位一作博士小哥（Tim Brooks和William Peebles）的博士导师，而Antonio Torralba也在本科期间指导过Peebles。
当时他们发现，机器学习模型很容易“过拟合”到特定的数据集上，导致在其他数据集上表现不佳。
十多年过去了，尽管我们有了更大、更多样化的数据集，如ImageNet、YFCC100M、CC12M等，但这个问题似乎并没有得到根本解决。
反而，随着神经网络变得越来越强大，它们“挖掘

原文链接：何恺明刘壮新作：消除数据集偏差的十年之战