打破纪录!谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧

千亿规模或成多元多模态模型必备

打破纪录!谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧

原标题:打破纪录!谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧
文章来源:量子位
内容字数:3581字

谷歌发布史上最大规模视觉语言数据集WebLI-100B

本文总结了谷歌DeepMind团队发布的最新研究成果:史上最大规模视觉语言数据集WebLI-100B,包含1000亿图像-文本对,是此前纪录的十倍。该研究由Xiao Wang和Ibrahim Alabdulmohsin一作,ViT核心作者翟晓华也参与其中,并于2024年12月加入OpenAI苏黎世实验室。

数据集规模与模型性能

1. **数据规模的突破:** WebLI-100B的数据量巨大,进一步验证了数据Scaling Law的潜力,表明数据规模提升仍有很大空间。 该数据集涵盖多元文化和多语言,能更好地覆盖长尾场景,提升模型性能,尤其是在非英语世界。

2. **对模型性能的影响:** 研究人员通过对比10亿、100亿和1000亿规模数据集训练的模型,发现数据规模越大,模型对图像细节的理解越精准。1000亿规模数据集在多语言能力和公平性任务上表现显著优于较小规模数据集,但在以西方文化为主的传统基准测试上提升有限。

3. **数据过滤的影响:** 研究发现,使用CLIP等模型进行数据过滤,虽然能提高模型在传统基准测试上的性能,但会无意中降低模型的文化多样性。 这表明在构建多元多模态大模型时,需要谨慎处理数据过滤步骤。

研究方法与实验结果

1. **数据收集与处理:** 研究人员从网络上收集了1000亿图像-文本对,并进行了初步的清洗和筛选,剔除有害内容和敏感信息。随后利用CLIP模型进行质量评估,并训练分类器模型进一步筛选,提高图像文本对齐的准确性。为了提升低资源语言的代表性,研究人员对低资源语言进行了上采样。

2. **模型训练与评估:** 研究人员使用SigLIP模型在不同规模的数据集上进行对比视觉语言预训练,训练了不同大小的模型(ViTB/16、ViT-L/16、ViT-H/14),并采用大规模批量大小和学习率调度。评估维度包括传统基准测试(ImageNet、COCO Captions等)、文化多样性、多语言能力以及公平性。

3. **主要发现:** 1000亿规模数据集显著提升了模型的多语言能力和公平性,但对以西方文化为主的传统基准测试的提升有限。数据过滤虽然能提升传统任务性能,但会降低文化多样性。调整低资源语言的混合比例能显著提升其在低资源语言基准测试上的性能。

研究团队与未来展望

该研究团队由Xiao Wang和Ibrahim Alabdulmohsin领衔,ViT核心作者翟晓华也参与其中。翟晓华已加入OpenAI。这项研究表明,千亿级数据规模将成为构建多元多模态大模型的重要参考,同时也强调了在数据处理过程中保持文化多样性的重要性。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...