大模型被偷家！腾讯港中文新研究修正认知：CNN搞多模态不弱于Transfromer

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：大模型被偷家！腾讯港中文新研究修正认知：CNN搞多模态不弱于Transfromer
关键字：报告,腾讯,卷积,图像,架构
文章来源：量子位
内容字数：5852字

内容摘要：

腾讯&港中文团队投稿量子位 | 公众号 QbitAI在Transformer占据多模态工具半壁江山的时代，大核CNN又“杀了回来”，成为了一匹新的黑马。
腾讯AI实验室与港中文联合团队提出了一种新的CNN架构，图像识别精度和速度都超过了Transformer架构模型。
切换到点云、音频、视频等其他模态，也无需改变模型结构，简单预处理即可接近甚至超越SOTA。
团队提出了专门用于大核CNN架构设计的四条guideline和一种名为UniRepLKNet的强力backbone。
只要用ImageNet-22K对其进行预训练，精度和速度就都能成为SOTA——
ImageNet达到88%，COCO达到56.4 box AP，ADE20K达到55.6 mIoU，实际测速优势很大。
在时序预测的超大数据上使用UniRepLKNet，也能达到最佳水平——
例如在全球气温和风速预测上，它就超越了Nature子刊上基于Transformer的前SOTA。
更多细节，我们接着看作者投稿。
“Transformer时代”，为什么还需要CNN在正式介绍UniRepLKNet的原理之前，作者首先解答了两个问题

原文链接：大模型被偷家！腾讯港中文新研究修正认知：CNN搞多模态不弱于Transfromer