AIGC动态欢迎阅读
原标题:何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏置?
关键字:数据,模型,腾讯,报告,任务
文章来源:算法邦
内容字数:6508字
内容摘要:
智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里巴巴通义千问大模型技术负责人周畅,「清华系Sora」生数科技CEO唐家渝,云天励飞“云天天书”大模型技术负责人余晓填,Open-Sora开发团队潞晨科技创始人尤洋,鸿博股份副总裁、英博数科CEO周韡韡,优必选研究院执行院长焦继超,科大讯飞人形机器人首席科学家季超,腾讯研究科学家张驰等40+位嘉宾已确认带来演讲和报告,欢迎报名。本文是算法邦公众号为大家分享的第4篇「大咖之声」文章。想象一下,如果把世界上所有的图片都找来,给它们放到一块巨大的空地上,其中内容相似的图片放得近一些,内容不相似的图片放得远一些(类比向量嵌入)。然后,我随机地向这片空地撒一把豆子,那么这把豆子怎么才能尽量撒得均匀?在真实世界收集数据集的过程就像是在撒豆子,把被撒到豆子的图片收集起来。简单来说,豆子撒不匀,数据集就有偏置。
论文标题:
A Decade’s Battle on Dataset Bias: Are We There Yet?
文章链接:
https://arxiv.org/pdf/2403.08632.pdf
数据集偏置之
原文链接:何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏置?
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,连接AI新青年,讲解研究成果,分享系统思考。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...