[N33] Transform与目标跟踪（CVPR2021概览）

您所在的位置：网站首页 › transform模型用于回归和分类 › [N33] Transform与目标跟踪（CVPR2021概览）

[N33] Transform与目标跟踪（CVPR2021概览）

2023-10-05 05:37| 来源: 网络整理| 查看: 265

Transform在视觉领域遍地开花，终于目标跟踪也没能逃过。并行的长距离依赖（空间和时间皆可）对于目标跟踪似乎有着天然的优势，本篇笔记简要概述今年CVPR2021关于Transform在目标跟踪中的应用，主要介绍动机和结构，细节和实验部分以后有空再补充。

论文列表：

Transformer Tracking

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

Learning Spatio-Temporal Transformer for Visual Tracking

Target Transformed Regression for Accurate Tracking

Transformer Tracking

论文：https://arxiv.org/abs/2103.15436

代码：https://github.com/chenxin-dlut/TransT

动机

跟踪中常用的correlation存在问题：

是一个局部线性匹配过程，没有利用全局上下文，容易陷入局部最优；

得到的相似图丢失一定程度的语义信息，导致对目标边界预测不准。

利用transform的attention有效融合模板特征和ROI特征，相比correlation能产生更多的语义特征。作者提出了基于self-attention的ego-context augment module (ECA)和基于cross-attention的cross-feature augment module (CFA)

结构

重复N=4次fusion layer最后再接一个CFA

整体跟踪框架ECA和CFA结构

transform工作过程

n=1 self search 没有来自模板的信息，因此会看到所有目标，而self template关注模板的关键信息（蚂蚁上的红点）；cross search和template同时具有目标和搜索的特征，因此可以更关注重要信息；

n=2 每一个attention输入都同时包含目标和搜索特征，self search对相似物的响应被抑制了，而cross search此时非常确信其预测。template的注意力此时开始关注目标边界；

n=3 进一步强化，模板特征成为包含大量目标边界信息的信息库，而搜索区域特征保留了目标的空间信息；

n=4 模板的分布变得混乱，这可能是因为，在目标确定之后，模板分支的特征不再需要保留模板本身的信息，而是存储了大量目标的边界信息，成为一个为回归服务的特征库

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

论文：https://arxiv.org/abs/2103.11681

代码：https://github.com/594422814/TransformerTrack

动机

现有的跟踪器常常忽略连续帧之间的 temporal contexts。

1 单帧独立检测方法：对时域信息的利用只有运动先验（余弦窗）

2. 模型更新方法：视频帧是独立的，没有相互推理关系；噪声会污染模型更新

transform中的注意机制，能够建立跨帧的像素对应关系，在时间域内自由传递各种信号。

本文将各个独立的视频帧进行桥接，并通过 transformer 架构来探索它们之间的 temporal contexts，以实现鲁棒的目标跟踪。与经典的 transformer 的结构不同，作者将其编码器和解码器分离成两个平行的分支，并在 Siamese-like 跟踪管道中对其精心设计。

结构

编码器通过基于注意力的特征强化来促进目标模板，有利于高质量的跟踪模型生成；

解码器将之前模板中的跟踪线索传播到当前帧，有利于目标搜索过程。

编码器和解码器结构

与经典transform结构的差异：

Encoder-decoer Separation. 没有将编码器和解码器级联，而是将编码器和解码器分离为两个分支，以适应Siamese-like跟踪方法；

Block Weight-sharing. 编码器和解码器中的self-attention(图4中的黄色方框)共享权值，将模板和搜索转换到同一特征空间中，便于进一步cross-attention；

Instance Normalization. 将Layer Norm换成Instance Norm；

Slimming Design. 移除FFN，并且使用single-head attention。

图4编码器解码器结构细节：

跟踪框架

siamese框架将编码器特征crop后和解码器特征做相关；

dcf框架用编码器特征生成dimp的kernel，作用于解码器特征；

预测框通过probabilistic IoUNet输出。

缺点

严重（完全）遮挡，出视野，高计算量

Learning Spatio-Temporal Transformer for Visual Tracking

论文：https://arxiv.org/abs/2103.17154

代码：https://github.com/researchmm/Stark

动机

卷积只处理空间或时间上的局部关系，不擅长建立长距离的全局依赖关系。因此在面对目标发生较大形变或频繁进出视野时容易失败。另外，当前的方法将空间和时间分离处理，并没有明确建模空间和时间之间的关系。

考虑到transform在建模全局依赖方面的优势，作者利用它整合空间和时间信息进行跟踪，生成判别的时空特征用于目标定位。

编码器对目标对象和搜索区域之间的全局时空特征依赖关系进行建模，而解码器学习一个查询嵌入来预测目标对象的空间位置。该方法将目标跟踪作为一个直接的边框预测问题（角点预测），没有后处理。

结构

Baseline (spatial-only)

编码器输入将模板和搜索特征拉平拼接；

解码器中query可以注意到模板和搜索区域的所有位置的特征，从而学习鲁棒表示，以进行边框预测。

预测头将Encoder输出中的搜索特征和decoder输出经过图3的结构，通过概率预测两个角点，最后输出唯一的框，用L1和IOU loss优化

Spatio-Temporal Transformer Tracking

相比baseline的改变：三元输入、增加分数预测头、训练&推理策略

训练分为两阶段：第一阶段不训练score head，搜索图像全部包含目标；第二阶段固定其他参数单独训练score head，搜索图像中有一半不包含目标（训练时只要搜索图像包含目标则认为可以更新）；

推理时达到更新间隔且分数大于阈值更新模板。

本文结构与DETR的区别

任务不同，检测vs跟踪

输入不同，detr输入整个图像，本文输入三元组，一个search和两个template；

query和训练策略，detr100个query并且每个都需要匈牙利匹配gt，而本文只有一个query和唯一gt；

预测头不同，detr三层感知器，本文基于角点预测

Target Transformed Regression for Accurate Tracking

论文：https://arxiv.org/abs/2104.00403

代码：https://github.com/MCG-NJU/TREG

动机

如何将目标信息整合到回归分支中，保留精确的边界信息并及时处理各种目标变化对于跟踪是至关重要的。

dw-corr将整个目标当成滤波器，只有目标的全局信息，面对物体变形时难以准确反映边界；

pix-corr忽略了目标模板中的少量背景会对目标外部区域赋予较大的注意力权重。

作者利用transform的交叉注意力来建模模板和搜索区域的每个元素之间的pair-wise关系，并用其增强原始特征。这种特征表达能够增强目标相关信息，帮助精确定位边界，并由于其局部和密集匹配机制，在一定程度上适应目标变形。

此外，设计了一个简单的在线模板更新机制来选择可靠的模板，提高了对目标外观变化和几何变形的鲁棒性。

结构

设计准则：

目标集成模块，保留充足的目标信息以生成精确目标边界；

像素级的上下文建模，以增强目标相关的特征和处理形变；

高效的在线机制，以处理连续序列中的外观变化。

TREG整体结构，核心是黄色的target-aware transformer，其余结构参考FCOTOnline Target-aware Transformer for Regression. (a) Target-aware transformer (b) Onlinetemplate update mechanism

将搜索特征看成query，目标被编码成key和value，对每一个query，都利用所有key和value为其提供加权聚合响应。

xi是搜索特征，tj是目标特征，Ωk表示目标模板的所有位置，k表示模板池的序号。

θ(xi), Φ(tj), ω(tj) 分别表示query, key, value。

注意这里归一化使用1/N而不是softmax。

The reason lies in that some positions in background and distractors of the search region are expected to have low dependency with target, while Softmax function will amplify this noise influence as the sum of attention weights between the query and all the keys is always 1.

在线更新模板，构建模板序列，包含3个静态模板和4个动态模板，静态的由第一帧变换增广生成，动态的取每n帧中得分最高的。

消融实验

图4展示物体在序列发生了变化，本文的transform增强了目标包括头部和脚在内的边界。

表1 TAT-Cls表示将transform用于分类，效果稍微下降，因为pixel-to-pixel的匹配方法往往忽略了目标的整体信息，不适合区分相似的对象。

补充

本文的结构和CVPR2021另外一篇文章也有些类似，即Graph Attention Tracking，可以参考之前的笔记。作者将模板和搜索特征的每个位置看成节点，使用图注意力构建局部密集的匹配关系用于加强原始特征。实现方式也和transform的交叉注意力类似，可以说是殊途同归。

【本文地址】

[N33] Transform与目标跟踪（CVPR2021概览）

[N33] Transform与目标跟踪（CVPR2021概览）

今日新闻

推荐新闻