AAAI 2025丨2080Ti 也能 4K 图像抠图 !美图&北交大提出超高分辨率自然图像抠图算法 MEMatte

美图影像研究院(MTLab)联合北京交通大学提出的超高分辨率抠图方法。

AAAI 2025丨2080Ti 也能 4K 图像抠图 !美图&北交大提出超高分辨率自然图像抠图算法 MEMatte

原标题:AAAI 2025丨2080Ti 也能 4K 图像抠图 !美图&北交大提出超高分辨率自然图像抠图算法 MEMatte
文章来源:AI科技评论
内容字数:4824字

美图研究院与北交大提出高效高分辨率图像抠图方法MEMatte

随着图像分辨率的提升,对高精度抠图的需求日益增长。然而,基于Transformer的抠图方法在处理高分辨率图像时面临巨大的显存压力。美图影像研究院(MT Lab)联合北京交通大学提出了一种名为MEMatte的显存友好型自然图像抠图框架,该框架能够在显存受限的设备上高效处理高清图像的精细抠图,其研究成果已被AAAI 2025接收。

1. MEMatte的核心创新:双分支令牌路由设计

MEMatte的核心在于其双分支令牌路由设计。该设计巧妙地将包含语义信息的令牌送入全局注意力模块,而将其他令牌送入轻量化令牌提炼模块(LTRM)进行处理。这种分流并非预设固定比例,而是通过动态路由机制(BATR)自适应地进行调整,从而显著降低了计算开销,并在Nvidia GeForce 2080Ti上实现了4K分辨率图像抠图。

2. 动态路由机制(BATR)

BATR机制通过局部-全局策略评估令牌重要性,并约束模型预测的批次平均分流比例,从而在训练过程中实现自适应的令牌分流。这种方法避免了传统令牌剪枝和融合方法的缺陷,即丢弃重要信息和预设比例不灵活的问题。

3. 轻量化令牌提炼模块(LTRM)

LTRM由轻量化组件构成,包括映射层、深度卷积(DWC)层和高效通道注意力(ECA)层,分别处理局部空间信息和全局特征信息,进一步提升效率。

4. 超高分辨率自然图像抠图数据集UHR-395

为了更好地评估高分辨率抠图模型,研究团队还开源了超高分辨率自然图像抠图数据集UHR-395。该数据集包含395个前景物体,平均分辨率高达4872×6017,并经过严格的审核机制确保数据质量。

5. 实验结果与性能提升

实验结果表明,MEMatte在现有基准和UHR-395数据集上均取得了领先的性能,并在域外测试集上展现了良好的泛化能力。与基线方法相比,MEMatte在Composition-1K数据集上节省了约88%的显存开销,并降低了约50%的推理时间。

6. MEMatte的优势总结

MEMatte通过双分支令牌路由设计和动态路由机制,有效解决了高分辨率图像抠图中的显存瓶颈问题,在保证精度的同时显著提升了效率。其开源的数据集UHR-395也为高分辨率抠图研究提供了宝贵的资源,为图像和视频处理领域带来了新的突破。


联系作者

文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...