CVPR2023

您所在的位置：网站首页 › 语义组合分析 › CVPR2023

CVPR2023

2023-04-04 04:21| 来源: 网络整理| 查看: 265

title：Top-Down Visual Attention from Analysis by Synthesis

文章链接：https://arxiv.org/abs/2303.13043

日期：2023年3月24日

项目主页: https://sites.google.com/view/absvit.

简介：这篇文章主要介绍了一种新的视觉注意力模型，即基于分析合成（AbS）视觉模型的自上而下的视觉注意力模型。作者提出了一种新的模型，Analysis-by-Synthesis Vision Transformer (AbSViT)，它是一种自上而下调制的ViT模型，可以实现可控的自上而下的注意力。AbSViT在视觉-语言任务（如VQA和零样本检索）中表现出色，并且还可以作为通用的骨干网络，提高分类、语义分割和模型鲁棒性等任务的性能。文章还讨论了计算机视觉和自然语言处理领域的一些最新进展，包括端到端的视觉-语言transformer、软卷积归纳偏差和鲁棒的视觉transformer等。

Abstract

这篇论文提出了一种新的视觉注意力模型，即基于分析合成（AbS）视觉模型的自上而下的视觉注意力模型。作者提出了一种新的模型，Analysis-by-Synthesis Vision Transformer (AbSViT)，它是一种自上而下调制的ViT模型，可以实现可控的自上而下的注意力。AbSViT在视觉-语言任务（如VQA和零样本检索）中表现出色，并且还可以作为通用的骨干网络，提高分类、语义分割和模型鲁棒性等任务的性能。文章还讨论了计算机视觉和自然语言处理领域的一些最新进展。

1. Introduction

文章的Introduction部分介绍了当前视觉注意力模型的局限性，即现有的注意力算法（如自注意力）是刺激驱动的，会突出显示图像中所有显著的对象。然而，像人类这样的智能体往往会根据高级任务来引导他们的注意力，只关注与任务相关的对象。这种任务导向的自上而下注意力的能力提供了任务自适应表示，并有助于模型在各种任务中进行泛化。因此，本文提出了一种基于分析合成（AbS）视觉模型的自上而下的视觉注意力模型，旨在实现可控的自上而下的注意力。

图1

Figure 1展示了自下而上(bottom-up)和自上而下(top-down)注意力的区别。自下而上的注意力是刺激驱动的，即突出显示图像中所有显著的对象，而自上而下的注意力是任务导向的，即根据高级任务来引导注意力，只关注与任务相关的对象。例如，当我们回答关于一张图片的不同问题时，我们只关注与问题相关的对象，而忽略其他对象。自上而下的注意力提供了任务自适应表示，并有助于模型在各种任务中进行泛化。

2. Related Work

自上而下的视觉注意力模型。首先讨论了现有的自上而下的视觉注意力模型。作者指出，先前的一些算法（如[1, 9, 49, 69, 71]）提出了自上而下的注意力机制，但它们与基于自注意力的transformers不兼容，缺乏原则性和统一的设计。其他一些工作（如[18, 41, 42, 72]）使用了一个前馈模型，将图像和高级指导（如文本标记或[cls]标记）作为输入，但与作者提出的自上而下模型设计相比，这种方法是次优的。作者进一步提出了一种基于分析合成（AbS）视觉模型的自上而下的视觉注意力模型，旨在实现可控的自上而下的注意力。

Top-down attention explained as Analysis by Synthesis（解释为综合分析的自上而下注意力） 接着论述了分析合成（AbS）视觉模型与自上而下的注意力之间的关系。作者指出，分析合成（AbS）被假设为自上而下注意力的潜在计算模型。先前的一些工作（如[36, 73]）从贝叶斯推理的角度出发，解释了自上而下调制在视觉系统中的作用。其他一些工作（如[5, 10, 53]）假设每个对象都由外观变量和位置变量生成，并使用贝叶斯推理来执行空间注意力和特征注意力。然而，这些模型不适用于现代深度学习的实际设计。作者进一步提出了一种基于分析合成（AbS）视觉模型的自上而下的视觉注意力模型，旨在实现可控的自上而下的注意力。

用于判别性学习的生成模型。作者指出，许多无监督学习算法都认为具有强大的生成能力的表示可以更好地捕捉视觉信号的结构，从而启发了许多算法的设计。例如，从早期的受限玻尔兹曼机(RBM)和Helmholtz机开始，到后来的自编码器模型，如DAE和VAE。最近的一些工作也表明，在生成方面的算法可以在许多视觉任务中取得出色的结果。在本文中，作者提出了一种基于分析合成（AbS）视觉模型的自上而下的视觉注意力模型，其中包含一个具有生成反馈路径的生成模型，可以改善中间表示和注意力，并提高模型的性能。

3. Preliminaries: Attention as Sparse Reconstruction（序言：作为稀疏重构的注意力）

作者介绍了注意力机制与稀疏重构之间的关系。作者指出，注意力机制可以被视为一种稀疏重构，其中注意力权重可以被视为一个稀疏向量，用于选择输入中最相关的部分。作者进一步介绍了一些常见的稀疏重构方法，如基于字典的稀疏编码和基于低秩矩阵分解的方法，并讨论了它们在计算机视觉和自然语言处理中的应用。作者还介绍了一些常见的注意力机制，如自注意力和多头注意力，并讨论了它们在transformer模型中的应用。

这个公式是稀疏重构问题的优化目标，其中 P 是一个字典矩阵，\tilde{u} 是一个稀疏向量，x 是输入信号。稀疏重构问题的目标是找到一个稀疏向量 \tilde{u}，使得它的线性组合 P\tilde{u} 最好地逼近输入信号 x。这个问题可以被看作是一种特殊的压缩感知问题，其中字典 P 是已知的，而稀疏向量 \tilde{u} 是需要求解的。在这个公式中，\lambda 是一个正则化参数，用于平衡稀疏性和重构误差。||\tilde{u}||_{1} 是 \tilde{u} 的 L_{1} 范数，它是一种常用的稀疏性度量。通过最小化这个优化目标，我们可以得到一个稀疏向量 \tilde{u}^{*}，它可以用于重构输入信号 x。这个公式与注意力机制的概念有关，因为注意力机制可以被看作是一种稀疏重构问题。在注意力机制中，输入信号被表示为一个向量，字典 P 是由输入信号中的所有位置组成的。通过最小化稀疏重构问题的优化目标，我们可以得到一个稀疏向量，它可以用于选择输入信号中的一些位置，从而实现注意力机制。

公式2是稀疏重构问题的动态系统形式，其中 u 是一个稀疏向量，P 是一个字典矩阵，x 是输入信号。稀疏重构问题的目标是找到一个稀疏向量 u，使得它的线性组合 P u 最好地逼近输入信号 x。这个问题可以被看作是一种特殊的压缩感知问题，其中字典 P 是已知的，而稀疏向量 u 是需要求解的。在这个公式中，\alpha 是一个正则化参数，用于平衡稀疏性和重构误差。(P^{T}P-I)u 是一个惩罚项，用于促进稀疏性。通过最小化这个动态系统的优化目标，我们可以得到一个稀疏向量 u，它可以用于重构输入信号 x。这个公式与注意力机制的概念有关，因为注意力机制可以被看作是一种稀疏重构问题。在注意力机制中，输入信号被表示为一个向量，字典 P 是由输入信号中的所有位置组成的。通过最小化稀疏重构问题的优化目标，我们可以得到一个稀疏向量，它可以用于选择输入信号中的一些位置，从而实现注意力机制。

公式3和4是 Analysis-by-Synthesis Vision Transformer (AbSViT) 模型中的优化目标，其中 \tilde{U} 是一个稀疏向量，K、Q 和 \Phi 是 AbSViT 模型中的参数，V 是输入信号。AbSViT 模型是一个基于 Analysis-by-Synthesis (AbS) 视觉系统的顶部-向下注意力模型，它通过稀疏重构来实现注意力机制。在这个公式中，第一个方程是稀疏重构问题的优化目标，其中 \lambda 是一个正则化参数，用于平衡稀疏性和重构误差。第二个方程是通过稀疏重构得到的稀疏向量 \tilde{U}^{*} 与 Q 和 \Phi 的乘积，用于计算注意力分布 z。通过最小化这个优化目标，我们可以得到一个稀疏向量 \tilde{U}^{*}，它可以用于计算注意力分布 z，从而实现注意力机制。这个公式与注意力机制的概念有关，因为它是 AbSViT 模型中实现注意力机制的核心公式。通过最小化稀疏重构问题的优化目标，AbSViT 模型可以得到一个稀疏向量 \tilde{U}^{*}，它可以用于计算注意力分布 z，从而实现顶部-向下的注意力机制。

4. Top-Down Attention from AbS（来自AbS的自上而下的注意力）

这一部分讲了如何从 Analysis-by-Synthesis (AbS) 视觉系统的角度来理解和实现顶部-向下的注意力机制。文章介绍了 AbS 视觉系统的层次结构和生成过程，并指出 AbS 视觉系统可以被看作是一种稀疏重构问题。接着，文章提出了一种基于稀疏重构的顶部-向下注意力机制，通过最小化稀疏重构问题的优化目标，可以得到一个稀疏向量，它可以用于选择输入信号中的一些位置，从而实现注意力机制。

4.1. Hierarchical AbS（层次化的AbS）

给出AbS视觉感知的贝叶斯推理过程。给定图像生成过程p(h|z)和先验p(z)，其中h是图像，z是潜在编码，AbS找到z* = arg max z p(h|z)p(z)。在这项工作中，假设生成是分层的，即zL → zL-1 → ... → z。

公式5是AbS（Analysis by Synthesis）视觉感知的贝叶斯推理过程的表达式。其中，h是图像，z是潜在编码，p(h|z)是给定图像生成过程，p(z)是先验。在这个公式中，假设生成是分层的，即z_L \rightarrow z_{L-1} \rightarrow \cdots \rightarrow z_1。z_L^*, \cdots, z_1^*是通过最大化后验概率p(z|h)得到的潜在编码，即最优的解码结果。这个公式的意义是通过贝叶斯推理找到最优的潜在编码，从而实现对图像的分析和合成。

公式6用于计算潜在编码z_{l+1}对应的上一层的像素残差。其中，P_l是一个投影矩阵，g_l(z_{l+1})是一个生成函数，||\cdot||_2表示L_2范数，||\cdot||表示L_1范数。这个公式的意义是通过最小化像素残差的L_1范数和L_2范数来计算像素残差，从而实现对图像的分层分析和合成。公式中的p(ul|z_{l+1})表示像素残差的后验概率，\alpha是一个归一化常数。公式7的意义是通过将上一层的残差u_l投影到当前层的空间中，得到当前层的残差\tilde{u}_l，从而实现对图像的分层分析和合成。

公式8用于计算潜在编码z_L对应的残差u_L。其中，h_l是图像，u_l是上一层的残差，p(h_l|u_l)是给定图像生成过程，p(u_L)是先验。在这个公式中，假设生成是分层的，即u_L \rightarrow u_{L-1} \rightarrow \cdots \rightarrow u_j。u_j, \cdots, u_L是通过最大化后验概率p(u_L|h_l)得到的残差，即最优的解码结果。

公式9表示在AbS的层次结构中，从上往下的注意力可以通过梯度的方式计算得到。其中，l表示层次结构中的某一层，ul表示该层中的某个位置，p表示概率分布，∇表示梯度。公式右侧第一项表示从上一层向下一层传递注意力的梯度，第二项表示从下一层向上一层传递注意力的梯度。通过计算这两个梯度的和，可以得到从上往下的注意力梯度。

4.2. Top-Down Attention from AbS（来自AbS的自上而下的注意力）

这部分讲的是如何从Analysis-by-Synthesis (AbS)的视角来理解和实现top-down attention。作者指出，AbS视觉系统通过优化稀疏重构目标来实现视觉感知，而这个目标可以通过一个目标导向的top-down信号来调节，从而实现top-down attention。作者进一步提出了Analysis-by-Synthesis Vision Transformer (AbSViT)模型，它是一个带有top-down调节的ViT模型，可以通过变分近似来实现AbS，并实现可控的top-down attention。

在AbS视角下，从上往下的注意力可以通过梯度的方式计算得到。其中，\tilde{u}_l表示在AbS模型中第l层的稀疏表示，P_e表示第e层的投影矩阵，x_l^{bu}和x_l^{td}分别表示从底部和顶部传递的信号，\lambda是一个正则化参数，r_l是一个约束函数。公式右侧的第一项表示从底部向上一层传递注意力的梯度，第二项表示对稀疏表示进行稀疏性约束的梯度，第三项表示对约束函数进行约束的梯度。通过计算这三个梯度的和，可以得到从上往下的注意力梯度。

\tilde{u}_{l}表示第l个特征向量的稀疏表示，P_{l}是一个字典，x_{l}^{bu}和x_{l}^{td}分别表示自底向上和自顶向下的信号，\nabla r_{l}(\tilde{u}_{l})是一个正则化项。这个公式描述了如何通过自顶向下的信号来调制特征向量的稀疏表示，从而实现自顶向下的注意力机制。具体来说，自顶向下的信号可以根据高层任务目标来指导低层特征的识别，从而实现自顶向下的注意力。这种自顶向下的注意力机制可以提供任务自适应的表示，并帮助模型在各种任务中进行泛化。

图2

上图展示了一个字典，其中每个原子包含了不同的对象或区域的掩码。稀疏重构的目标是使用尽可能少的掩码来重构输入特征图，从而只突出显示显著的对象。图二(b)展示了一个从上往下的信号x_td，它对原子的权重施加了一个偏置，以便只选择与x_td一致的对象。这个过程可以看作是一种从上往下的注意力，只关注与高层目标相关的对象或区域，从而实现了任务导向的注意力。这种从上往下的注意力可以通过AbS视角来理解和实现，从而实现可控的top-down attention。

5. Analysis-by-Synthesis Vision Transformer（基于分析合成AbS的ViT）

这部分介绍了一种基于分析合成（AbS）视觉系统的自顶向下的注意力机制，并提出了一种新的模型——Analysis-by-Synthesis Vision Transformer（AbSViT）。作者指出，AbS视觉系统优化了一种类似于稀疏重构的目标函数，但是通过自顶向下的信号进行调制，从而模拟了自顶向下的注意力。AbSViT是一种基于ViT模型的自顶向下调制模型，可以通过变分近似来逼近AbS视觉系统，并实现可控的自顶向下的注意力。

上式是AbSViT模型的变分下界损失函数，用于训练模型。其中，L_{var}表示变分下界，z_{l}表示第l层的潜在表示，P_{l}是一个字典，\tilde{u}_{l}是第l层的稀疏表示，g_{l}(z_{l+1})是第e层的解码器，\lambda是一个稀疏性惩罚系数，p(z_{l}|z_{l+1})是一个条件概率分布，p(z_{L})是一个先验概率分布。这个损失函数的第一项是一个重构误差项，用于衡量模型的重构能力，第二项是一个稀疏性惩罚项，用于促进模型的稀疏表示，第三项是一个先验项，用于约束模型的潜在表示。通过最小化这个损失函数，模型可以学习到适合任务的自顶向下的注意力机制，并实现任务自适应的表示。

AbSViT模型的训练损失函数用于优化模型的权重。其中，z_l表示第l层的潜在表示，g是一个解码器，sg是一个标准化函数，z_{t+1}是第t+1层的潜在表示，p(z_L)是一个先验概率分布。这个损失函数的第一项是一个重构误差项，用于衡量模型的重构能力，第二项是一个先验项，用于约束模型的潜在表示。通过最小化这个损失函数，模型可以学习到适合任务的自顶向下的注意力机制，并实现任务自适应的表示。

5.1. AbSViT Design（模型设计）

AbSViT是一种基于ViT模型的自顶向下调制模型，可以通过变分近似来逼近AbS视觉系统，并实现可控的自顶向下的注意力。作者指出，AbS视觉系统优化了一种类似于稀疏重构的目标函数，但是通过自顶向下的信号进行调制，从而模拟了自顶向下的注意力。AbSViT的设计遵循了AbS的原则，将自顶向下的信号仅添加到value矩阵中，而不是query和key矩阵中，这是因为在自顶向下的注意力中，value矩阵更容易受到调制。此外，AbSViT还使用了变分近似来逼近AbS视觉系统，而不是仅仅使用监督损失来训练模型。这种设计可以实现自顶向下的注意力机制，从而提高模型的性能。

图3

AbSViT的每个推理过程包括四个步骤，分别是feedforward、modulation、feedback和top-down attention。在feedforward步骤中，AbSViT首先将图像通过前向传递路径进行编码。在modulation步骤中，输出的token通过与先验向量ξ的相似性进行重新加权。在feedback步骤中，token被送回到解码器中，以生成top-down信号。在top-down attention步骤中，top-down信号被添加到self-attention的value矩阵中，而其他部分保持不变。这种设计可以实现自顶向下的注意力机制，从而提高模型的性能。

设计带有先验信息的令牌调制(token modulation)，目的是在反馈到网络时修改令牌以携带关于先验pξ的信息。先验由ξ参数化，可以是语言嵌入或类原型，告诉网络要查看哪些对象。因此，我们将调制实例化为简单的空间重新加权，即ziL → α · sim(ξ, ziL) · ziL，其中ziL是第L层的输出令牌，sim是余弦相似度，α是一个缩放因子，控制自上而下的信号的规模。

设计带有自上而下输入的自注意力(self-attention)，通过在查询(query)、键(key)和值(value)上添加自上而下信号来实现。作者将这种设计命名为AbSViT-QKV。作者在图像分类和鲁棒性方面比较了AbSViT和AbSViT-QKV，并发现AbSViT在每个基准测试中都优于AbSViT-QKV。作者还测试了变分损失Lvar的效果，该损失确保模型逼近AbS。作者发现，AbSViT比没有Lvar的对应模型表现更好。此外，作者还指出，如果将自注意力和稀疏重构进行类比，只需在值V上添加自上而下信号，而保持其他部分如Q和K不变，就可以平滑地构建自上而下版本的自注意力。

AbSViT模型的损失函数如上式14，其中sg(z_l)是第l层的输出令牌，gl(sg(z_{l+1}))是第l+1层的输入令牌，L_{sup}是监督损失。该损失函数的目标是最小化重构误差和先验概率的负对数，以及监督损失。公式15是先验概率p_{\xi}(z_L)的计算公式，其中z_L是最后一层的输出令牌，\xi是先验参数，可以是语言嵌入或类原型。该公式计算了给定先验下，z_L是属于哪个类别的概率。具体来说，分子是\xi和z_L的余弦相似度的指数形式，分母是所有类别的\xi和z_k的余弦相似度的指数形式之和。

6. Experiments（实验部分）

实验部分介绍了AbSViT模型在多个任务上的实验结果。作者首先展示了AbSViT在多物体场景中实现了可控的自上而下注意力，然后在视觉语言任务（如VQA和零样本图像检索）、ImageNet分类和模型鲁棒性以及语义分割等方面进行了测试。

作者介绍了实验所使用的数据集和实验设置。作者在VQA任务中使用了VQAv2数据集进行训练和测试，并使用了VQA-HAT数据集收集的人类注意力作为比较。在零样本图像检索任务中，作者使用了Flickr30K数据集。在ImageNet分类任务中，作者使用了ImageNet-1K（IN）数据集进行训练和测试，并在IN-C、IN-A、IN-R和IN-SK等数据集上进行了测试。在语义分割任务中，作者在PASCAL VOC、Cityscapes和ADE20K数据集上进行了测试。作者比较了几种目标导向注意力的基线模型，包括PerceiverIO和ViT等。作者还测试了AbSViT在不同任务上的性能，并分析了AbSViT的设计。作者还测试了模型对图像损坏的鲁棒性，并进行了可视化分析。在实验设置方面，作者使用了UperNet作为语义分割的解码器头和FCNHead作为辅助头。作者使用AdamW优化器，在2个GPU上进行训练，总批量为16，学习率为0.00006，权重衰减为0.01。作者在PASCAL VOC和ADE20K上使用512x512的图像分辨率，在Cityscapes上使用512x1024的图像分辨率。在V&L Finetuning中，作者使用了预训练的RoBERTa文本编码器和从头开始训练的多模态编码器。作者使用了学习率为1e-5的ImageNet预训练ViT或AbSViT进行视觉编码器的训练，学习率为5e-5的多模态编码器进行训练。

6.1. Controllable Top-Down Attention of AbSViT（AbSViT的可控自上而下的注意力）

作者通过在查询(query)、键(key)和值(value)上添加自上而下信号来实现自上而下的注意力。作者还通过在多物体场景中的实验展示了AbSViT实现可控的自上而下注意力的能力。作者还比较了AbSViT和其他基线模型在多物体场景中的表现，并发现AbSViT在控制自上而下注意力方面表现更好。作者还通过可视化分析展示了AbSViT如何选择性地保留图像中的信息，以及如何根据不同的先验条件自适应地控制选择过程。

图4

图5

图4展示了在多物体图像中如何使用不同的类别原型作为先验来控制自上而下的注意力，从而实现对不同物体的关注。作者通过将不同的类别原型作为先验来控制自上而下的注意力，从而使得分类结果也随之改变。与此相比，仅使用自下而上的注意力会同时突出显示两个物体，无法实现对不同物体的有选择性的关注。图5比较了不同的自上而下注意力算法，包括PerceiverIO、Feedback和MaskAtt等。作者使用了相同的先验来控制自上而下的注意力，并比较了它们的注意力图。结果显示，AbSViT的注意力图比其他基线模型更清晰，更准确地关注到了物体的位置。这表明AbSViT在控制自上而下注意力方面表现更好，能够更好地适应不同的先验条件。

6.2. AbSViT for Vision-Language Tasks（视觉语言任务中的AbSViT ）

这部分介绍了AbSViT在两个视觉语言任务（VQA和零样本图像检索）上的表现。作者使用METER框架，将ViT-B、AbSViT-B和其他基线模型作为视觉骨干网络，这些网络都是在ImageNet上预训练的。结果表明，在VQAv2任务上，AbSViT在两个测试集上都超过了基线模型，并且达到了无监督模型（BEiT-B）的性能水平。同时，PerceiverIO没有比ViT有更好的表现，可能是因为METER中的多模态融合已经可以执行令牌重新加权。纯反馈网络有所帮助，主要是由于反馈循环期间的特征细化。值得注意的是，先前工作中经常使用的MaskAtt策略实际上会降低性能。

表1

作者比较了不同的自上而下的注意力算法在VQA和零样本图像检索任务上的表现。其中，AbSViT在两个任务上都取得了一致的改进。与其他基线模型相比，AbSViT在VQA任务的测试集上的表现更好，IR@1和IR@5指标分别提高了0.8%和0.7%。在零样本图像检索任务中，AbSViT的表现也优于其他基线模型，IR@1和IR@5指标分别提高了0.12%和0.7%。这表明AbSViT在视觉语言任务中具有很好的性能。

图6

图6展示了AbSViT和人类注意力在VQA任务上的比较。图中展示了两个问题，每个问题都有一个底部的图像和一个上部的注意力热图。可以看到，AbSViT的注意力热图可以根据不同的问题进行调整，并且与人类注意力热图相一致。与此同时，PerceiverIO的注意力热图虽然也能够关注目标对象，但是噪声较大，可能是因为它缺乏反馈机制。而MaskAtt则容易错过对象的某些部分，这表明MaskAtt对于ViTs来说不太适合。这张图说明了AbSViT在视觉语言任务中具有可控的自上而下的注意力，并且可以与人类注意力相一致。

6.3. Image Classification and Robustness（图像分类和鲁棒性）

AbSViT在ImageNet分类和鲁棒性基准测试上的表现是怎样的呢？作者使用了mCE（越低越好）和准确率等指标来评估模型的性能。结果表明，在干净图像上，AbSViT相对于基线模型具有更好的性能，特别是在FAN-B数据集上，AbSViT的干净准确率提高到了83.7%，并且在更少的参数下达到了ConvNext-B的水平。在受损图像和对抗图像上，AbSViT的性能也有所提高，特别是在FAN-B数据集上，AbSViT的性能提高了1%到5%，达到了最新的最佳结果。此外，作者还展示了AbSViT的注意力热图，说明了AbSViT的自上而下的注意力可以帮助提取前景对象。

表2 AbSViT在ImageNet分类和鲁棒性基准测试上的结果。AbSViT在不同的基准测试和骨干网络上都提高了性能。表格中的P/F表示参数和FLOPs的数量，↓表示数值越小越好。

图6 比较AbSViT和人类在VQA任务上的注意力热图。AbSViT的注意力热图可以根据不同的问题进行调整，并且与人类注意力热图相一致。

表3

表3比较了不同自上而下的注意力算法在ImageNet分类和鲁棒性上的表现。结果表明，AbSViT在所有测试集上都取得了最佳性能，特别是在FAN-B数据集上，AbSViT的性能提高了1%到5%，达到了最新的最佳结果。与其他基线模型相比，AbSViT在所有测试集上都具有更好的性能。

图7

图7展示了AbSViT中自下而上的注意力、令牌权重和自上而下的注意力的可视化。可以看到，自下而上的注意力噪声较大，无法完整地检测前景对象。在AbSViT中，查询掩码可以粗略地检测前景对象，并重新加权反馈到令牌，以指导自上而下的注意力更好地提取前景对象。

6.4. Semantic Segmentation（语义分割）

作者测试了AbSViT在语义分割任务上的表现，包括在PASCAL VOC、Cityscapes和ADE20K数据集上的测试。作者还比较了几个目标导向注意力的基线模型。

表4 三个数据集上的语义分割结果6.5. Justification of Model Design（模型设计合理性）

作者通过分析视觉注意力和稀疏重构之间的功能等效性，提出了AbS（分析合成）视觉模型，并将其用于构建AbSViT模型。作者还比较了AbSViT和其他模型的性能，并对AbSViT的设计进行了进一步的讨论。解释了AbSViT模型设计的合理性。

表5 自上而下自注意的预测设计AbSViT优于AbSViT-QKV

表6 对变分损失Lvar的消融实验

表5比较了AbSViT和AbSViT-QKV在图像分类和鲁棒性方面的表现，结果表明AbSViT在所有基准测试中都优于AbSViT-QKV。这表明作者提出的AbSViT模型设计是合理的。表6则是对变分损失Lvar的消融实验，结果表明加入变分损失可以提高模型的性能。这些实验结果支持了作者提出的AbSViT模型设计的合理性和有效性。

7. Limitations and Future Work（局限性与未来工作）7.1. ImageNet Classification Is a Poor Teacher of Top-Down Attention（ImageNet分类对于训练top-down attention的不足）

这部分讨论了ImageNet分类对于训练top-down attention的不足。作者指出，ImageNet分类是针对单个对象分类的，没有任何先验知识，因此不适合预训练top-down attention。作者发现，仅使用ImageNet训练的AbSViT只能学习到弱的top-down attention。作者提出了一种简单的技巧，即手动设置更大的缩放因子α（例如α=10），以增强下游任务（如VQA）的top-down attention。作者还提出了一些未来的研究方向，如通过无监督学习或视觉语言预训练来学习更强的top-down attention。

图8

上图展示了在不同的缩放因子α下，AbSViT模型对于先验（鸟）的top-down attention的可视化结果。可以看到，随着α的增加，top-down attention越来越偏向于先验（鸟），即模型更加关注先验中的鸟。这表明，通过手动设置更大的缩放因子α，可以增强模型的top-down attention，从而提高模型在下游任务中的性能。

7.2.How Many Syntheses Do We Need for Analysis?（需要多少合成模型来提高分析性能？）

这一节讨论了在视觉识别中需要多少“合成”（generative）模型来提高“分析”（analysis）的性能。作者指出，强的合成模型可以提供更强的先验知识，从而提高模型的性能。然而，过于强大的合成模型可能会降低模型的判别能力。作者通过实验发现，AbSViT模型的一定程度的合成能力对于模型的性能有所帮助。作者还提出了一些未来的研究方向，如如何平衡合成和分析的关系，以及如何在不同的任务中使用不同程度的合成模型。

图9 从自底向上、自顶向下或自底向上和自顶向下信号的组合中解码的图像示例。

解码器可以从自底向上信号中重构整个图像，但是从单独的自顶向下信号中无法生成任何可识别的内容。当从自底向上和自顶向下信号的组合中解码时，只有前景对象被重构。这表明，自底向上信号提供了图像的基本信息，而自顶向下信号提供了先验知识，两者的组合可以提供更准确的重构结果。

8. Conclusion

作者总结了他们提出的AbSViT模型。作者从分析合成（AbS）视觉模型的角度解释了自顶向下注意力，并提出了AbSViT模型，该模型通过变分逼近AbS模型，实现了可控的自顶向下注意力。作者还展示了AbSViT在视觉与语言任务、图像分类和鲁棒性方面的优越性能。这些结果表明，AbSViT模型是一种有效的自顶向下注意力模型，可以在多个任务中提高模型的性能。

(相关参考文献可以看原论文的References部分)

【本文地址】

CVPR2023

CVPR2023

今日新闻

推荐新闻