后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式
关键字：模型,研究者,迁移性,纹理,数据
文章来源：机器之心
内容字数：7747字

内容摘要：

机器之心报道
编辑：蛋酱如何衡量一个视觉模型？又如何选择适合自己需求的视觉模型？MBZUAI和Meta的研究者给出了答案。一直以来，ImageNet 准确率是评估模型性能的主要指标，也是它最初点燃了深度学习的火种。但对于今天的计算视觉领域来说，这一指标正变得越来越不「够用」。
因为计算机视觉模型已变得越来越复杂，从早期的 ConvNets 到 Vision Transformers，可用模型的种类已大幅增加。同样，训练范式也从 ImageNet 上的监督训练发展到自监督学习和像 CLIP 这样的图像 – 文本对训练。
ImageNet 并不能捕捉到不同架构、训练范式和数据所产生的细微差别。如果仅根据 ImageNet 准确率来判断，具有不同属性的模型可能看起来很相似。当模型开始过度拟合 ImageNet 的特异性并使准确率达到饱和时，这种局限性就会变得更加明显。
CLIP 就是个值得一提的例子：尽管 CLIP 的 ImageNet 准确率与 ResNet 相似，但其视觉编码器的稳健性和可迁移性要好得多。这引发了对 CLIP 独特优势的探索和研究，如果当时仅从 ImageNet 指标

原文链接：后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式