Siamese系列跟踪网络之SiamFC、SiamRPN、DaSiamRPN、SiamRPN++、SiamMask |
您所在的位置:网站首页 › 使用网络跟踪器对商家有什么好处 › Siamese系列跟踪网络之SiamFC、SiamRPN、DaSiamRPN、SiamRPN++、SiamMask |
孪生网络的缺点:首先,大部分孪生网络只能区分前景和非语义背景,语义背景一直被认为是很大的干扰,尤其是当背景杂乱时跟踪性能无法保证。其次,大多数孪生追踪器不能更新模型,虽然他们的简单性和固定模式的性质提升了跟踪速度,但是在跟踪场景下目标发生剧烈的外观变化时,孪生网络失去了在线更新模型的能力。第三,目前的孪生网络采取局部搜索策略,无法处理完全遮挡和超出视野的问题。如下图所示,在背景中差异很大的目标也能获得高分,比如白衣的球员和目标,甚至在SiamFC中一些无关的物体也能获得高分。作者分析了原因:(1)孪生网络提取的特征是根据训练数据的类别进行判别式训练得到的,在 SiamFC 和 SiamRPN 中来自同一视频不同帧的训练数据组成对,对于每个搜索区域的非语义背景占大多数,语义物体和干扰项占少数。因此,这种训练数据不平衡的分布使得训练模型难以学习实例层次的表示,而是倾向于学习前景和背景的区别。(2)在推理过程中,使用最近邻搜索搜索区域中最相似的目标,而在第一帧中被标记的背景信息被忽略,所以相似度最高的目标很有可能是干扰项,而并非目标。 数据集扩展:高质量的训练数据是视觉跟踪端到端表征学习成功的关键,作者通过引入一系列的策略来消除训练数据的不平衡分布,从而提高特征的泛化能力。 最初SiamFC是在ILSVRC视频检测数据集上训练,SiamRPN探索使用稀疏标签的Youtube-BB视频,这些视频检测数据集只包含很少的类别(VID 20,Youtube-BB 30) ,这不足以提供高质量和通用的跟踪特征。为了提高泛化能力并且对新类别的边界框回归更加准确,在训练集中增加了正样本对(detection pairs)。为了节省视频标记的繁琐和耗时,直接引入大规模ImageNet Detection和COCO Detection数据集,通过增强技术(平移、调整大小、灰度等) ,检测数据集的静态图像可用于生成图像对进行训练,如下图(a)所示。为了提高判别能力增加了语义负对(negative pairs from the same/different categories),来自不同类别的负对可以使跟踪器避免在超出视野和完全遮挡时漂移到任意目标,而来自同一类别的负对使得跟踪器专注于细粒度表示,即同类不同物的区分,如下图(b)和(c)所示。 Distractor-aware Incremental Learning:作者提出一个干扰-感知模块来有效的将一般表示( general representation)转换到特定视频域(video domain)。为了充分利用标签信息,我们将目标上下文中的负样本(干扰项)集成到相似度量中,采用非最大值抑制(NMS)来选择每帧中的可能的distractors
d
i
d_i
di,然后得到一个distractor set
D
:
=
{
∀
d
i
∈
D
,
f
(
z
,
d
i
)
>
h
∩
d
i
≠
z
t
}
D :=\{∀d_i ∈ D, f (z, d_i ) > h ∩ d_i \not=z_t \}
D:={∀di∈D,f(z,di)>h∩di=zt},
∣
D
∣
=
n
|D|=n
∣D∣=n,其中
f
(
z
,
x
)
f (z, x)
f(z,x)是模板和搜索图像的相似性度量,
z
t
z_t
zt是第
t
t
t帧通过最高得分选择的目标,
h
h
h是预先设定好的阈值,来挑选剩下目标中的干扰项。在此基础上,引入一种新的干扰项感知目标函数,对与样本最像的top-k个proposals
P
P
P进行重新排序。最后选择的目标被标记为
q
q
q:
q
=
arg max
p
k
∈
P
f
(
z
,
p
k
)
−
α
^
∑
i
=
1
n
α
i
f
(
d
i
,
p
k
)
∑
i
=
1
n
α
i
=
arg max
p
k
∈
P
(
φ
(
z
)
−
α
^
∑
i
=
1
n
α
i
φ
(
d
i
)
∑
i
=
1
n
α
i
)
⋆
φ
(
p
k
)
q = \argmax_{p_k ∈P} f (z, p_k )- \frac{\hat{α}\sum_{i=1}^nα_if (d_i , p_k ) }{\sum_{i=1}^n α_i}\\ =\argmax_{p_k ∈P} (φ(z)- \frac{\hat{α}\sum_{i=1}^nα_iφ(d_i) }{\sum_{i=1}^n α_i})⋆φ(p_k)
q=pk∈Pargmaxf(z,pk)−∑i=1nαiα^∑i=1nαif(di,pk)=pk∈Pargmax(φ(z)−∑i=1nαiα^∑i=1nαiφ(di))⋆φ(pk)
α
^
\hat{α}
α^控制整体干扰项学习的影响,
α
i
α_i
αi控制每一个干扰项
d
i
d_i
di的影响,但是直接计算会使计算复杂度和内存占用量增加
n
n
n倍,因此用第二个等式加速计算,即通过减少卷积的次数来减小计算复杂度。更进一步可以进行增量学习,将现有的相似性度量(general)调整为新领域(specific)的相似性度量。(这里不是很理解,在代码中也没有找到实现过程,/(ToT)/~~)
q
=
arg max
p
k
∈
P
(
∑
t
=
1
T
β
t
φ
(
z
t
)
∑
t
=
1
T
β
t
−
∑
t
=
1
T
β
t
α
^
∑
i
=
1
n
α
i
φ
(
d
i
,
t
)
∑
t
=
1
T
β
t
∑
i
=
1
n
α
i
)
⋆
φ
(
p
k
)
q =\argmax_{p_k ∈P} (\frac{\sum_{t=1}^T β_tφ(z_t)}{\sum_{t=1}^T β_t}- \frac{\sum_{t=1}^T β_t\hat{α}\sum_{i=1}^nα_iφ(d_{i,t}) }{\sum_{t=1}^T β_t\sum_{i=1}^n α_i})⋆φ(p_k)
q=pk∈Pargmax(∑t=1Tβt∑t=1Tβtφ(zt)−∑t=1Tβt∑i=1nαi∑t=1Tβtα^∑i=1nαiφ(di,t))⋆φ(pk) 如下图所示,该算法充分利用了目标和背景信息,有效地抑制了跟踪过程中干扰因素的影响。 Long-term Tracking:提出了一种在短期跟踪和跟踪失败情形间简单而有效的切换方法,主要是根据检测分数的变化。如下图所示,SiamRPN的检测分数并不标准,即使在视野外和完全遮挡的情况下仍然很高,所以其倾向于在这些情形下较为武断地找到一个目标,从而导致跟踪漂移。然而在 DaSiamRPN中,检测得分能与跟踪相位的变化更为一致。因此,设计了一种在跟踪失败的情形下,通过local-to-global搜索策略来逐渐增加搜索区域的方法(即将搜索区域的大小以一个恒定的步长迭代增长),从而对目标re-detect。 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |