Softmax注意力与线性注意力的优雅融合，Agent Attention推动注意力新升级

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：Softmax注意力与线性注意力的优雅融合，Agent Attention推动注意力新升级
关键字：注意力,模型,线性,向量,全局
文章来源：机器之心
内容字数：8659字

内容摘要：

机器之心专栏
作者：韩东辰来自清华大学的研究者提出了一种新的注意力范式——代理注意力 (Agent Attention)。近年来，视觉 Transformer 模型得到了极大的发展，相关工作在分类、分割、检测等视觉任务上都取得了很好的效果。然而，将 Transformer 模型应用于视觉领域并不是一件简单的事情。与自然语言不同，视觉图片中的特征数量更多。由于 Softmax 注意力是平方复杂度，直接进行全局自注意力的计算往往会带来过高的计算量。针对这一问题，先前的工作通常通过减少参与自注意力计算的特征数量的方法来降低计算量。例如，设计稀疏注意力机制（如 PVT）或将注意力的计算限制在局部窗口中（如 Swin Transformer）。尽管有效，这样的自注意力方法很容易受到计算模式的影响，同时也不可避免地牺牲了自注意力的全局建模能力。
与 Softmax 注意力不同，线性注意力将 Softmax 解耦为两个的函数，从而能够将注意力的计算顺序从 (query・key)・value 调整为 query・(key・value)，使得总体的计算复杂度降低为线性。然而，目前的线性注意力方法效果

原文链接：Softmax注意力与线性注意力的优雅融合，Agent Attention推动注意力新升级