何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏置？

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏置？
关键字：数据,模型,腾讯,报告,任务
文章来源：算法邦
内容字数：6508字

内容摘要：

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会，阿里巴巴通义千问大模型技术负责人周畅，「清华系Sora」生数科技CEO唐家渝，云天励飞“云天天书”大模型技术负责人余晓填，Open-Sora开发团队潞晨科技创始人尤洋，鸿博股份副总裁、英博数科CEO周韡韡，优必选研究院执行院长焦继超，科大讯飞人形机器人首席科学家季超，腾讯研究科学家张驰等40+位嘉宾已确认带来演讲和报告，欢迎报名。本文是算法邦公众号为大家分享的第4篇「大咖之声」文章。想象一下，如果把世界上所有的图片都找来，给它们放到一块巨大的空地上，其中内容相似的图片放得近一些，内容不相似的图片放得远一些（类比向量嵌入）。然后，我随机地向这片空地撒一把豆子，那么这把豆子怎么才能尽量撒得均匀？在真实世界收集数据集的过程就像是在撒豆子，把被撒到豆子的图片收集起来。简单来说，豆子撒不匀，数据集就有偏置。
论文标题：
A Decade’s Battle on Dataset Bias: Are We There Yet?
文章链接：
https://arxiv.org/pdf/2403.08632.pdf
数据集偏置之

原文链接：何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏置？