视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

AIGC动态3年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba
关键字：模型,华为,复杂度,视觉,线性
文章来源：机器之心
内容字数：4759字

内容摘要：

机器之心专栏
机器之心编辑部Transformer 在大模型领域的地位可谓是难以撼动。不过，这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后，局限性也愈发凸显了。Mamba的出现，正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。
上周四，Vision Mamba（Vim）的提出已经展现了它成为视觉基础模型的下一代骨干的巨大潜力。仅隔一天，中国科学院、华为、鹏城实验室的研究人员提出了 VMamba：一种具有全局感受野、线性复杂度的视觉 Mamba 模型。这项工作标志着视觉 Mamba 模型 Swin 时刻的来临。论文标题：VMamba: Visual State Space Model
论文地址: https://arxiv.org/abs/2401.10166
代码地址: https://github.com/MzeroMiko/VMamba
CNN 和视觉 Transformer（ViT）是当前最主流的两类基础视觉模型。尽管 CNN 具有线性复杂度，ViT 具有更为强大的数据拟合能力，然而代价是计算复杂较高。研究者认为 ViT 之所以拟合能力强，是因为其具有全局感

原文链接：视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba