视觉Mamba来了：速度提升2.8倍，内存能省87%

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：视觉Mamba来了：速度提升2.8倍，内存能省87%
关键字：视觉,图像,序列,维度,建模
文章来源：机器之心
内容字数：5361字

内容摘要：

机器之心报道
编辑：陈萍、泽南Vision Mamba 不是个普通模型。号称「全面包围 Transformer」的 Mamba，推出不到两个月就有了高性能的视觉版。
本周四，来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba（Vim）。论文地址：https://arxiv.org/pdf/2401.09417.pdf
项目地址：https://github.com/hustvl/Vim
论文标题：Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
效果如何呢？在 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务上，与 DeiT 等成熟的视觉 Transformers 相比，Vim 实现了更高的性能，同时还显著提高了计算和内存效率。例如，在对分辨率为 1248×1248 的图像进行批量推理提取特征时，Vim 比 DeiT 快 2.8 倍，并节省 86.8% 的 GPU 内存。结果表明，V

原文链接：视觉Mamba来了：速度提升2.8倍，内存能省87%