Top-1准确率高达83.6%
原标题:轻量化MobileMamba视觉模型来了|浙大/腾讯优图/华中科大联合出品
文章来源:量子位
内容字数:5160字
MobileMamba:高效轻量化视觉模型的
在移动设备日益普及的今天,对高效、快速且准确的视觉处理需求不断增长。为此,浙大、腾讯优图和华中科技大学的团队提出了轻量化模型MobileMamba,旨在平衡效率与效果,尤其在高分辨率输入下实现出色的推理速度。
1. 研究背景与现有挑战
传统的轻量化模型主要基于CNN和Transformer结构。虽然CNN如MobileNet和GhostNet通过深度可分离卷积等技术降低了计算复杂度,但其局部感受野限制了长距离依赖的建模能力。而Transformer虽然具备全局建模能力,却因平方级别的计算复杂度在高分辨率输入下表现不佳。近来的Mamba模型因其线性计算复杂度而受到关注,但基于Mamba的模型如LocalMamba和EfficientVMamba在实际推理速度上并未达到预期。
2. MobileMamba的设计与创新
MobileMamba通过三阶段网络的粗粒度设计,显著提升了推理速度。同时,团队在细粒度上提出了高效多感受野特征交互(MRFFI)模块,结合小波变换增强的Mamba、深度可分离卷积和去冗余恒等映射,确保了全局与多尺度信息的融合,提高了高频细节特征的提取能力。
3. 实验结果与性能提升
大量实验结果表明,MobileMamba在ImageNet-1K数据集上的Top-1准确率最高可达83.6,速度是LocalVim的21倍、EfficientVMamba的3.3倍。同时,在下游任务如目标检测和语义分割中,MobileMamba同样展现了卓越的性能,在各项任务中均超过了传统模型。
4. 结论与未来展望
总体而言,MobileMamba通过其三阶段框架和MRFFI模块,在性能与效率之间达成了良好的平衡。该模型不仅在分类任务中表现出色,也对高分辨率输入的下游任务展现了强大的适应能力。未来,MobileMamba有望在更多视觉任务中拓展应用,推动轻量化模型研究的进一步发展。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破