本文提出的线性注意力模块可以直接替换现有Vision Transformer框架中,并在视觉基础任务和LRA任务上一致地提升了性能。
原标题:ICLR 2025 | 极性感知线性注意力!哈工深张正团队提出PolaFormer视觉基础模型
文章来源:机器之心
内容字数:6926字
PolaFormer: 提升视觉Transformer效率与性能的极性感知线性注意力
本文介绍了哈尔滨工业大学(深圳)与鹏城实验室的研究成果PolaFormer,一种新型高效的Vision Transformer,它通过引入极性感知线性注意力机制,在保持线性复杂度的同时显著提升了模型的性能。
1. Vision Transformer的效率瓶颈
Vision Transformer及其变体在视觉任务中表现出色,但其核心模块——自注意力机制的O(N²)复杂度限制了其在处理长序列或高分辨率图像时的效率。线性注意力机制通过核函数替换softmax函数,将复杂度降低为O(N),但其表达能力通常不如基于softmax的注意力。
2. PolaFormer的核心改进
PolaFormer主要解决了现有线性注意力机制的两个不足:负值丢失和注意力分布高信息熵。
- 极性感知注意力:针对负值丢失问题,PolaFormer将query和key向量分解为正部和负部,分别计算正相似度和负相似度,从而保留了所有元素的交互信息,增强了模型的表达能力。
- 可学习幂函数:针对高信息熵问题,PolaFormer从理论上证明了一族具有特殊性质的映射函数可以有效降低注意力权重分布的信息熵,并采用可学习的幂函数来实现这一目标,从而提高模型区分强弱响应的能力。
PolaFormer通过以上两点改进,有效弥合了线性注意力和基于softmax的注意力之间的性能差距。
3. 实验结果与结论
实验结果表明,PolaFormer在图像分类、目标检测、实例分割和语义分割等视觉任务以及LRA任务上都取得了显著的性能提升,并优于其他线性注意力模型。PolaFormer可以直接替换现有Vision Transformer框架中的自注意力模块,具有良好的实用性。
4. 主要贡献总结
PolaFormer的主要贡献包括:
- 提出极性感知线性注意力,解决了现有线性注意力机制忽略负值的问题。
- 理论上证明并采用可学习的幂函数来降低注意力分布的信息熵。
- 在多个视觉任务和LRA任务上取得了优异的性能。
PolaFormer为高效Vision Transformer的设计提供了一种新的思路,为其在资源受限环境下的应用提供了有力支撑。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...