字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

AIGC动态6个月前发布 量子位
15 0 0

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

AIGC动态欢迎阅读

原标题:字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024
关键字:字节跳动,模型,视觉,准确率,特征
文章来源:量子位
内容字数:4381字

内容摘要:


允中 发自 凹非寺量子位 | 公众号 QbitAI视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
字节提出新基础模型——ViTamin,专为视觉语言时代设计。
在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。
此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。
当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。
最终这一成果,入选计算机视觉顶会CVPR2024。
视觉语言时代新基准在视觉语言时代下,如何设计一个更好可扩展的视觉模型?
在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。
此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷


原文链接:字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...