Re

您所在的位置:网站首页 beyond的特点 Re

Re

2023-12-05 14:08| 来源: 网络整理| 查看: 265

前言这篇文章是本人的第一篇知乎,如有不足之处,欢迎批评指正。实在惭愧,之前师兄一直在群里疯狂暗示总结和交流的重要性,要积极向他的专栏里投文章,但都没有想好该写点什么。本人在Re-ID方面略有研究,这第一篇知乎就想谈谈Re-ID中特征对齐相关的理论和方法。一、概述

Re-ID是近年来比较热门的一个计算机视觉研究方向。熟悉Re-ID的都知道,Re-ID的主要挑战来自于遮挡、光照变化、姿态变化、视角变化和背景干扰等等,这些因素往往会导致同一个id的行人不对齐,相应地提取的表观特征也不对齐,影响最终的匹配/检索精度。因此,一些研究者就从特征对齐的角度出发,提出了一系列研究算法,在一定程度上提高了Re-ID在常规数据集上的精度。这些方法主要可以分为以下四类

借助注意力机制,使网络重点关注行人的一些part,获得对齐特征;预测一组预定义的属性,作为指导匹配过程的有用特征;手工将行人图片/特征分块,再对齐分块特征;借助行人姿态估计或行人part实例分割方法,利用关键点信息或part mask辅助特征对齐。二、方法

下面主要简单谈谈最近一段时间阅读的几篇与特征对齐相关的Re-ID论文。

1、Deeply-Learned Part-Aligned Representations for Person Re-Identification(ICCV 2017)(paper link)

这篇文章是属于借助注意力机制实现特征对齐的一类文章。其原理也比较简单,作者受注意力方法的启发,在端到端的模型中设计多条注意力支路用于提取行人不同部位的特征,使用这样的方法的好处是不需要额外的人体part标注信息。

主干网络是FCN,训练时用的损失函数是传统的Triplet loss,在Market-1501上获得了81.0%的Rank-1精度,当然这样的精度与现有更先进的方法相比是要差得多的(不得不感慨最近两三年Re-ID的进步太大了)。方法简单有效,但也有不足之处,即使用注意力方法关注的行人part还是太粗糙,且存在重复聚焦的问题。

2、AlignedReID: Surpassing Human-Level Performance in Person Re-Identification(paper link)

旷视科技的一篇论文,是属于手工切分行人图片实现对齐的一类方法。论文作者认为,part-based和local feature learning对齐方法需要额外的监督信息,且要考虑预处理(姿态估计、实例分割)的精度问题,训练起来不是那么方便。因此作者直接水平等分行人图像,提出AlignedReID,结合全局特征学习和局部特征学习,并在网络的局部特征学习中采用动态规划计算最短路径实现不同行人图片的对齐操作,取得了较好的结果。

AlignedReID的主干网络是ResNet-50,有全局特征提取和局部特征提取两条分支。训练时两条分支同时参与训练,测试时只使用全局特征,这样可以保证计算量,且性能几乎不下降(神奇)。

使用动态规划求最短路径实现特征对齐是这篇文章的最大亮点。为了求解不同行人块相互匹配的最短路径,作者构建了如下状态转移方程:

式中 d_{i,j} 是局部特征距离, S_{i,j} 是在距离矩阵中从(1, 1)到 \left( i,j \right) 最短距离。下图是利用最短路径实现对齐的一个示意。

总的来说,AlignedReID的特征对齐方式还是很有效的,特别是对于检测框不准确的情况。但手工分块获得的特征还是显得粗糙,且切分块数的设定需要实验支撑,较费时。作者将AlignedReID扩展后投到了PR,并命名为AlignedReID++(这很旷视),主要是验证了对齐深的特征会更有效,损失函数则增加了softmax loss。

3、Beyond Part Models: Person Retrieval with Refined Part Pooling(and A Strong Convolutional Baseline)(ECCV 2018)(paper link)

这篇论文即是常被用于比较的PCB算法。PCB使用ResNet-50作为backbone,但移除了全局平均池化层及其后面的部分。对输入的行人图像,经backbone提取特征后,水平切分为6大块,然后每块特征图向量化后预测一个分类结果,每个分类层的权重不同,各自用softmax loss优化。

当然,作者也考虑到均匀分片不可避免地会导致每个part中包含极端值,这些极端值实际上可能和其他part更相似。因此提出了一个“part精炼池化”策略(refined part pooling,RPP)。RPP会重新分配这些极端值到它相似的part,使得每片的内容一致性更好。实验证明,PCB + RPP的效果很好。

虽然PCB这种手工切分特征来获得特征对齐能力的方法可以提升Re-ID性能,但不管怎么说这种严格统一的硬划分还是会破坏行人part的一致性,即使用了RPP来缓解,且PCB没有考虑全局特征的重要性。

同一团队还进一步将PCB思想与姿态估计进行结合,利用关键点信息来增强特征,解决Re-ID中的遮挡问题,论文发表在了ICCV 2019,点击这里获得。

4、Harmonious Attention Network for Person Re-Identification (CVPR 2018)(paper link)

简称HACNN,同样属于使用注意力机制获得特征对齐能力的一篇文章。HACNN也有两条分支,全局特征提取分支,和局部特征提取分支。全局分支除提取全局特征外,还通过Harmonious注意力模块返回硬注意力位置信息(T个box的坐标),并根据位置信息将部分全局特征与局部特征相融合,充分利用了全局分支的表达能力,使局部分支不丢失表达能力的情况下能够减少卷积层数,降低参数量,间接地实现特征对齐。

HACNN的另外一大优势是网络参数量较少,可重头开始训练,没有采用任何数据增强的手段和预训练网络,却有不错的结果。

相较于AlignedReID和PCB,HACNN算是自适应地切分行人图像,且允许局部区域有一定的交叠,对齐策略显得更“软”。

5、Beyond Human Parts: Dual Part-Aligned Representations for Person Re-Identification (ICCV 2019)(paper link)

这篇文章属于借助行人part实例分割和自注意力机制实现特征对齐的一类方法。作者提出dual part-aligned representation,借助现有的行人parsing模型(对行人进行part分割)去提取行人part mask,并借助这些mask用于计算浅层到深层的对齐特征对于行人图像的non-human信息,作者运用self-attention机制去对所有像素进行分组,将这些像素分到隐式的part类别中。最后,融合精细的行人part信息和粗糙的non-human part信息,可以获得鲁棒的行人整体对齐特征。

进一步地,作者提出了 p^{2}-Net ,将dual part-aligned block(DPB)嵌入到ResNet-50每一个stage后,用于实现高精度的行人Re-ID。

总体来看,作者综合了行人part分割和self-attention机制的优势,可以提取丰富的行人对齐特征,有一定参考价值。但也要意识到,使用分割的方法获得的行人part mask不一定可信,会影响最终的精度。另外,作者考虑了背景信息(不属于分割类的目标都属于背景)对Re-ID的贡献,但个人认为,并不是所有背景信息都是有利的,在Re-ID场景下,存在跨摄像头问题,背景信息往往会给特征匹配引入噪声,不利于匹配。

6、High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification (CVPR 2020) (paper link)

这篇文章是旷视团队的一篇新作,所提方法专门考虑遮挡情况下的Re-ID,但其中涉及到运用人体关键点来对齐特征。作者借助图卷积来实现关键点之间的关系建模,并通过一个特殊的层来实现图的对齐。整体模型分三个模块,一阶语义模块(S),高阶相关性模块(R)和高阶人体拓扑模块(T)。

在S中,作者首先利用CNN提取行人的初步特征,并用人体关键点估计模型来学习关键点,然后,提取对应关键点的语义信息;

在R中,作者将习得的图像语义特征看作图的节点,然后提出了一个方向自适应的图卷积层ADGC层来学习和传递边缘特征信息。学习到的节点包含语义和相关性信息。

在T中,提出了一个跨图嵌入对齐CGEA层。它以两个图作为输入,利用图匹配策略学习二者之间节点的对应关系,然后将学习到的对应关系视为邻接矩阵来传递信息。

在对齐阶段,使用图匹配算法来学习鲁棒的对齐能力。这种方法除了能用点到点的对应关系进行对齐外,它还能对边到边的对应关系进行建模。然后,通过构造一个跨图像的图,可以将对齐信息嵌入进特征。

这篇借助GCN来学习关键点的高阶信息,并对齐,具有较高的创新性。不管怎么说,借助姿态估计获得关键点信息都会有一定误差,特别是在遮挡情况下,关键点的位置不可信程度要更高。如何改造基于GCN实现行人姿态估计的方法运用到遮挡Re-ID上或许是一个可以尝试的方向,这样可以构建一个更加一体的模型。

7、Semantics-Aligned Representation Learning for Person Re-identification(AAAI 2020)(paper link)

这篇论文所提的对齐机制比较特别,严格来讲不属于上述四类对齐方法中的任何一种,但也差不多类似于第二种方法,预测一组预定义的属性,作为指导匹配过程的有用特征。作者提出SAN模型,包含编码器和解码器网络。编码器可以是一般的Re-ID网络(如ResNet-50),解码器用于生成密集语义对齐纹理图像(简称纹理图像)。

解码器的主要作用:对应输入图像生成纹理图像,纹理图像包含人体的所有3D特征,每个位置对应的语义纹理信息是固定的,如右下角表示的是行人的手部。训练时,解码器与编码器联合训练,迫使编码器获得特征对齐能力;在预测阶段,解码器不起作用,编码器提取行人特征,用于特征匹配,可保证基本不增加参数量。

从实验结果来看,SAN效果非常好,在market-1501上获得了96.1%的Rank-1精度和88.0%的mAP,不过,在baseline(ResNet-50)上的Rank-1竟可以达到94.1%,有点可疑。另外,虽然SAN精度高,但其训练方法稍显复杂,特别是Pseudo groundtruth Texture Images的制作,需要大量时间和精力。作者最近开源了代码,有空可以看一下。

三、小结

特征对齐在Re-ID中算是一种比较常见的方法,在提升匹配精度方面确实可以起到很大的作用。四种Re-ID中的特征对齐方法分别有利有弊,如何设计更高效的特征对齐方法或在有挑战性的Re-ID场景中(如密集遮挡,服饰相似等)获得良好的对齐特征,是值得进一步思考的问题,或综合考虑四种方法,或引入新的特征对齐机制。

四、参考资料

[1] https://blog.csdn.net/baidu_39622935/article/details/83416908

[2] https://zhuanlan.zhihu.com/p/116014484



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3