ConvNet与Transformer谁更强？Meta评测4个领先视觉模型，LeCun转赞

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：ConvNet与Transformer谁更强？Meta评测4个领先视觉模型，LeCun转赞
关键字：模型,研究人员,纹理,数据,形状
文章来源：新智元
内容字数：5522字

内容摘要：

新智元报道编辑：桃子
【新智元导读】当前的视觉模型哪个更好？Meta团队最新一波研究来了。如何根据特定需求选择视觉模型？
ConvNet/ViT、supervised/CLIP模型，在ImageNet之外的指标上如何相互比较？
来自MABZUAI和Meta的研究人员发表的最新研究，在「非标准」指标上全面比较了常见的视觉模型。
论文地址：https://arxiv.org/pdf/2311.09215.pdf
就连LeCun称赞道，非常酷的研究，比较了相似大小的ConvNext和VIT架构，无论是在监督模式下训练，还是使用CLIP方法进行训练，并在各种属性上进行了比较。
超越ImageNet准确性计算机视觉模型格局，变得越来越多样复杂。
从早期的ConvNets到Vision Transformers的演进，可用模型的种类在不断扩展。
类似地，训练范式已经从ImageNet上的监督训练，发展到自监督学习、像CLIP这样的图像文本对训练。
在标志着进步的同时，这种选择的式增长给从业者带来了重大挑战：如何选择适合自己的目标模型？
一直以来，ImageNet准确率一直是评估模型性能的主要

原文链接：ConvNet与Transformer谁更强？Meta评测4个领先视觉模型，LeCun转赞