SparseViT
原标题:AAAI 2025 | IML领域首个稀疏化视觉Transformer,代码已开源
文章来源:机器之心
内容字数:4162字
SparseViT: 一种高效的图像篡改定位方法
本文介绍了SparseViT,一种由四川大学吕建成团队和澳门大学潘治文教授团队合作开发的全新图像篡改定位 (IML) 模型。该模型的核心在于利用稀疏自注意力机制,摆脱了传统 IML 模型对手工制作非语义特征提取器的依赖,实现了参数效率和性能的兼顾。
1. 现有 IML 模型的局限性
现有的 IML 模型普遍采用“语义分割主干网络 + 手工制作非语义特征提取器”的架构。这种方法存在局限性:其对未知场景的伪影提取能力有限,并且严重依赖人工设计的特征。
2. SparseViT 的核心思想
SparseViT 关注图像篡改的非语义特征。研究发现,非语义特征在局部和全局之间保持一致性,且在不同图像区域表现出更大的性。因此,SparseViT 提出了基于稀疏自注意力的架构,取代了传统的全局自注意力机制,从而能够自适应地提取非语义特征。
3. 关键组件
- Sparse Self-Attention:这是 SparseViT 的核心组件。通过将输入特征图划分成块,并在每个块上进行自注意力计算,减少了计算复杂度(最高减少 80% 的 FLOPs),同时高效地捕获关键特征。该机制避免了模型对语义信息的过度拟合,从而更好地捕捉非语义伪影。
- Learnable Feature Fusion (LFF):这是一个多尺度特征融合模块,通过可学习参数动态调整不同尺度特征的重要性,提高模型的泛化能力和对复杂场景的适应性。LFF 优先强化与篡改相关的低频特征,同时保留高频特征,增强模型对微弱和大型伪影的处理能力。
4. SparseViT 的优势
SparseViT 具有以下几个方面的优势:
- 参数效率:通过稀疏计算,显著降低了计算量。
- 高性能:在多个公共数据集上实现了最先进的性能。
- 泛化能力强:可学习的多尺度监督机制增强了模型在不同场景下的适应性。
- 无需手工特征提取器:简化了模型设计,提高了模型的普适性。
5. 开源代码及未来展望
SparseViT 的相关代码和文档已完全开源在 GitHub (https://github.com/scu-zjz/SparseViT),并计划长期维护。该模型有望为图像篡改检测领域的理论与应用研究提供新视角。
总之,SparseViT 通过巧妙地利用语义特征和非语义特征的差异,为图像篡改定位提供了一种高效、准确且具有泛化能力的新方法。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...