综述:计算机视觉中的通道注意力机制 |
您所在的位置:网站首页 › 计算机视觉的应用场景有哪些 › 综述:计算机视觉中的通道注意力机制 |
综述:计算机视觉中的通道注意力机制
1. INTRODUCTION:2. 计算机视觉中的注意力机制2.1. 通用形式2.2 通道注意力 | channel attention | what to pay attention to2.2.1 SENet2.2.2 GSoP-Net2.2.3 SRM2.2.4 GCT2.2.5 ECANet2.2.6 FcaNet2.2.7 EncNet2.2.8 通道注意力机制模型总结
3. 论文链接
这是一篇从数据域的角度,给注意力机制分为六类的综述,涵盖论文数量多。 论文题目:Attention Mechanisms in Computer Vision: A Survey 论文链接:https://arxiv.org/pdf/2111.07624.pdf 论文代码: https://github.com/MenghaoGuo/Awesome-Vision-Attentions ABSTRACT: 人类可以自然有效地在复杂场景中发现显著区域。在这种观察的激励下,注意力机制被引入计算机视觉,目的是模仿人类视觉系统的这一方面。这种注意力机制可以看作是一个基于输入图像特征的动态权重调整过程。注意力机制在许多视觉任务中取得了巨大的成功,包括图像分类、目标检测、语义分割、视频理解、图像生成、三维视觉、多模态任务和自监督学习。在这项调查中,我们对计算机视觉中的各种注意力机制进行了全面的回顾,并根据方法对它们进行了分类,如通道注意、空间注意、时间注意和分支注意;相关代码在https://github.com/MenghaoGuo/Awesome-Vision-Attentions。我们还提出了注意力机制研究的未来方向。 将注意力转移到最重要的部分被称为注意力机制;人类使用视觉系统来帮助高效地分析和理解复杂场景。这反过来又促使研究人员将注意力机制引入计算机视觉系统,以提高其性能。在视觉系统中,注意力机制可以被视为一个动态选择过程,通过根据输入的重要性自适应地加权特征来实现。注意力机制在很多视觉任务中都有好处,例如:图像分类、目标检测、语义分割、人脸识别、人物再识别、动作识别、少量显示学习、医学图像处理,图像生成、姿势估计、超分辨率、三维视觉和多模式任务。 过去十年,注意力机制在计算机视觉中逐渐起重要作用。图3简要地总结了基于deep learning 的CV领域中attention-based模型的发展历史。成果大致可以分为四个阶段。 第一阶段:从RAM开始的开创性工作,将深度神经网络与注意力机制相结合。它反复预测重要区域。并以端到端的方式更新整个网络。之后,许多工作采用了相似的注意力策略。在这个阶段,RNN在注意力机制中是非常重要的工具。第二阶段:从STN中,引入了一个子网络来预测放射变换用于选择输入中的重要区域。明确预测待判别的输入特征是第二阶段的主要特征。DCN是这个阶段的代表性工作。第三阶段:从SENet开始,提出了通道注意力网络(channel-attention network)能自适应地预测潜在的关键特征。CBAM和ECANet是这个阶段具有代表性的工作。第四阶段:self-attention自注意力机制。自注意力机制最早是在NLP中提出并广泛使用。Non-local网络是最早在CV中使用自注意力机制,并在视频理解和目标检测中取得成功。像EMANet,CCNet,HamNet和the Stand-Alone Network遵循此范式并提高了速度,质量和泛化能力。最近,深度自注意力网络(visual transformers)出现,展现了基于attention-based模型的巨大潜力。 表1 简要总结注意力机制分类 Attention cateoryDescriptionTranslationChannel attention(what to pay attention to)Generate attention mask across the channel domain and use it to select important channels在通道域中生成注意力掩码,并使用它选择重要通道Spatial attention(where to pay attention to)Generate attention mask across spatial domains and use it to select important spatial regions or predict the most relevant spatial position directly生成跨空间域的注意力掩码,并使用它来选择重要的空间区域或直接预测最相关的空间位置Temporal attention(when to pay attention to)Generate attention mask in time and use it to select key frames及时生成注意力掩码,并使用它选择关键帧Branch attention(which to pay attention to)Generate attention mask across the different branches and use it to select important branches在不同的分支上生成注意力掩码,并使用它来选择重要的分支Channel & spatial attentionPredict channel and spatial attention masks separately or generate a joint 3-D channel, height, width attention mask directly and use it to select important features分别预测通道和空间注意力掩码,或直接生成一个联合的三维通道、高度、宽度注意力掩码,并使用它选择重要特征Spatial & temporal attentionCompute temporal and spatial attention masks separately, or produce a joint spatiotemporal attention mask, to focus on informative regions分别计算时间和空间注意力掩码,或生成联合时空注意力掩码,以关注信息区域当我们在日常生活中看到一个场景时,我们会把注意力集中在识别区域,并快速处理这些区域。上述过程可表述为: A t t e n t i o n = f ( g ( x ) , x ) {Attention = f(g(x),x)} Attention=f(g(x),x) g ( x ) {g(x)} g(x)可以表示为产生注意力,这对应于注意待识别区域的过程; f ( g ( x ) , x ) {f(g(x),x)} f(g(x),x)表示基于attention g ( x ) {g(x)} g(x)处理输入 x x x,这与处理关键区域、获取信息是一致的。 根据上述定义,我们发现几乎所有现存的注意力机制都能够被写成上述形式。这里我们列举了self-attention的Non-Local和spatial attention的SENet。 Non-Local可以写成: SENet可以写成: 因此,我们会通过上述形式介绍各种注意力机制方式。 2.2 通道注意力 | channel attention | what to pay attention to创新点:改进了squeeze模块。global average pooling(GAP) -> global second-order pooling(GSoP) 动机:SENet仅仅采用了全局平均池化方法,GSoP-Net认为这是不够的,这限制了注意力机制的建模能力,因此提出了global second-order pooling(GSoP) block在收集全局信息的同时对高阶统计数据建模. 和SEBlock一样,GSoPBlock同样有 squeeze和excitation两部分结构。 squeeze模块: 1 × 1 {1\times1} 1×1卷积(Conv)将通道维度从 [ C , H , W ] [C,H,W] [C,H,W]-> [ C ′ , H , W ] [C^{'},H,W] [C′,H,W], ( C ′ < C ) (C^{'}{\sqrt{C}}}{Norm(s_{in})}}s_{in}; s_{in},s_{out}=[C,1,1] ReLU层(δ)->全连接层( W 2 W_2 W2)->Sigmoid(σ)将得到的结果和原特征图相乘,为每一个通道给不同的权重注:2D DCT 看不懂。。。。。。 2.2.7 EncNet动机:受SENet的启发,提出了上下文编码模块(CEM, context encoding module),该模块结合了语义编码损失(SE-loss, semantic encoding loss),以建模场景上下文和对象类别概率之间的关系,从而利用全局场景上下文信息进行语义分割。 给定一个输入特征映射,CEM首先在训练阶段学习K个聚类中心D, D = { d 1 , . . . , d K } {D=\{d_1,...,d_K\}} D={d1,...,dK}和一组平滑因子S, S = { s 1 , . . . , s K } {S=\{s_1,...,s_K\}} S={s1,...,sK}。接下来,它使用软分配权重对输入中的局部描述子和相应的聚类中心之间的差异进行求和,以获得置换不变描述子。然后,为了提高计算效率,它将聚合应用于K个簇中心的描述符,而不是级联。形式上,CEM可以写成如上公式。 2.2.8 通道注意力机制模型总结 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |