AIGC动态欢迎阅读
原标题:大模型被偷家!腾讯港中文新研究修正认知:CNN搞多模态不弱于Transfromer
关键字:报告,腾讯,卷积,图像,架构
文章来源:量子位
内容字数:5852字
内容摘要:
腾讯&港中文团队 投稿量子位 | 公众号 QbitAI在Transformer占据多模态工具半壁江山的时代,大核CNN又“杀了回来”,成为了一匹新的黑马。
腾讯AI实验室与港中文联合团队提出了一种新的CNN架构,图像识别精度和速度都超过了Transformer架构模型。
切换到点云、音频、视频等其他模态,也无需改变模型结构,简单预处理即可接近甚至超越SOTA。
团队提出了专门用于大核CNN架构设计的四条guideline和一种名为UniRepLKNet的强力backbone。
只要用ImageNet-22K对其进行预训练,精度和速度就都能成为SOTA——
ImageNet达到88%,COCO达到56.4 box AP,ADE20K达到55.6 mIoU,实际测速优势很大。
在时序预测的超大数据上使用UniRepLKNet,也能达到最佳水平——
例如在全球气温和风速预测上,它就超越了Nature子刊上基于Transformer的前SOTA。
更多细节,我们接着看作者投稿。
“Transformer时代”,为什么还需要CNN在正式介绍UniRepLKNet的原理之前,作者首先解答了两个问题
原文链接:大模型被偷家!腾讯港中文新研究修正认知:CNN搞多模态不弱于Transfromer
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...