【ICCV2019】probabilistic face embeddings 概率人脸嵌入

您所在的位置:网站首页 pfe是什么材质 【ICCV2019】probabilistic face embeddings 概率人脸嵌入

【ICCV2019】probabilistic face embeddings 概率人脸嵌入

2023-06-04 21:47| 来源: 网络整理| 查看: 265

概率人脸嵌入PFE:http://openaccess.thecvf.com/content_ICCV_2019/papers/Shi_Probabilistic_Face_Embeddings_ICCV_2019_paper.pdf

这篇博文主体为对PFE的精细翻译,附带本人加的一些注释。

摘要

    通过比较隐语义空间的面部特征,嵌入方法已经在人脸识别领域取得了成功。然而,在完全无约束的人脸设置中,嵌入模型学习到的人脸特征可能是模棱两可的,甚至可能不存在于输入人脸中,从而导致噪声结果。我们提出了概率人脸嵌入(PFEs),它将每个人脸图像表示为隐空间中的高斯分布。高斯分布的均值为最可能的特征值,而方差表示特征值的不确定性。然后,利用不确定性信息自然地推导出用于匹配和融合PFE的概率解。通过对不同基准模型、训练数据集和指标的实验评测,表明该方法通过将决定性嵌入替换为概率性嵌入(PFEs)可以提高人脸识别算法的性能。PFEs估计出的不确定性也是隐空间匹配精度的良好指标,对风险控制识别系统具有重要意义。

引言

        当人类被要求描述一个面部图像时,他们不仅能够描述面部特征,而且还能描述出置信度。例如,如果眼睛在图像中变得模糊,一个人将保持眼睛大小作为一个不确定的信息,并关注其他特征。此外,如果图像完全损坏,并且无法识别任何属性,则受试者可能会回答他/她无法识别此面部。这种不确定性(或置信度)估计在人类决策中是常见而重要的。

        另一方面,最先进的人脸识别系统中使用的表示通常情况下其置信度也是不可知的。这些方法依赖于一个嵌入模型(例如深层神经网络)来为每个隐特征空间中的人脸图像提供决定性的点表示[28、36、21、35、4]。隐空间中的一个点表示模型对给定图像中面部特征的估计。如果估计误差是有界的,则两点之间的距离可以有效地度量对应人脸图像之间的语义相似度。但是由于低质量的输入,预期的面部特征在图像中是模糊的或不存在的,嵌入点的大偏移是不可避免的,导致错误的识别(图1a)。

        鉴于人脸识别系统已经在相对有限的人脸识别数据集(如LFW[10]和YTF[38])上实现了很高的识别精度,其中大多数面部特征都可以清晰地观察到,最近的人脸识别挑战已经转移到更无约的场景,包括监视视频[19,24,13](见图2)。在这些任务中,任何类型和程度的变化都可能存在于人脸图像中,其中大部分由所表示的模型所学的面部特征可能不存在。由于缺乏这些信息,因此不太可能找到始终能够精确匹配这些面的特征集。因此,在LFW上获得99%以上准确率的最先进的人脸识别系统在IARPA Janus数据集上遭受了很大的性能下降[19,24,13]。

        为了解决上述问题,我们提出了概率人脸嵌入(PFEs),它在每个输入人脸图像的隐空间中给出分布估计,而不是点估计(图1b)。该分布的均值可以认为最可能的隐特征值,而分布的跨度表示这些估计的不确定性。PFE可以从两个方面解决无约束场景下的人脸识别问题:(1)在匹配(人脸比较)过程中,PFE对不确定的特征(维度)进行惩罚,更注重高置信度的特征。(2)对于低质量的输入,PFE估计的置信度可用于拒绝输入或主动请求人工帮助以避免错误识别。此外,还可以得到一个自然解,将一组人脸图像的PFE表示聚合成一个新的不确定性分布,以提高识别性能。PFE的实现是开源的。本文的贡献可归纳如下:

1. 一种不确定性感知的概率人脸嵌入(PFE),它将人脸图像表示为分布而不是点。

2. 一个用PFE方法自然地推导出用于人脸匹配和特征融合的概率框架。

3. 一种简单的方法,将现有的确定性嵌入转换成PFEs,而不需要额外的训练数据。

4. 综合实验表明,该方法能有效地滤除低质量的输入,提高确定性嵌入的人脸识别性能,增强了人脸识别系统的鲁棒性。

 

2. 相关工作

深度神经网络中的不确定性学习。为了提高判别式深度神经网络的鲁棒性和可解释性,深度不确定性学习越来越受到重视[15,5,16]。不确定性主要有两种类型:模型不确定性和数据不确定性。模型不确定性是在指给定训练数据下模型参数的不确定性,可以通过收集额外的训练数据来降低模型参数的不确定性[23、25、15、5]。数据不确定性是指输出中的不确定性,其主要来源是输入数据中固有的噪声,因此不能用更多的训练数据来消除这些不确定性[16]。本文研究的不确定性为数据不确定性。尽管已经开发了用于估计不同任务(包括分类和回归)中数据不确定性的技术[16],但它们不适合我们的任务,因为我们的目标空间不是由给定的标签定义的。变分自编码器[18] 也可以看作是估计数据不确定性的一种方法,但它主要用于生成目的。具体到人脸识别,一些研究[6,17,47]已经利用模型不确定性来分析和学习人脸表示,但据我们所知,我们的工作是第一个将数据不确定性3用于识别任务的工作。

概率人脸表示。将人脸建模为概率分布并不是一个新的想法。在人脸模板/视频匹配领域中,存在丰富的文献将人脸在特征空间上建模成概率分布[30, 1]、子空间[3]或流形[1, 11]。然而,这种方法的输入是一组人脸图像而不是单个人脸图像,并且它们使用分布间相似性或距离度量(例如KL散度)进行比较,这不会降低不确定性。同时,一些研究[20,9]试图利用人脸零件的特征建立给定人脸的模糊模型。相比之下,提出的PFE将每个人脸图像表示为DNN编码的隐空间中的一个分布,并且我们使用不确定性感知的对数似然分数来比较这些分布。

质量感知池化。与上述方法相比,最近关于人脸模板/视频匹配的工作旨在通过将所有人脸的深层特征聚合到一个单一的压缩向量中来利用CNN嵌入的显著性[43、22、41、7]。在这些方法中,一个独立的模块学习预测图像集中每个人脸的质量,然后为加权特征向量池进行规范化。我们证明在我们的框架下可以自然地导出一个解决方案,这不仅给出了质量感知池方法的概率解释,而且还导致了一个更一般的解决方案,其中图像集也可以建模为PFE表示。

 

3. 决定性嵌入的局限性

在这一部分中,我们将从理论和经验两个角度解释决定性人脸嵌入的问题。设 表示图像空间, 表示d维的隐特征空间。理想的隐空间 应该只编码使身份显著的特征,并从与身份无关的特征中剥离出来。因此,每个身份都应该有一个唯一的内在码z∈ ,它最能代表这个人,并且每个人脸图像x∈ 都是从 采样的观测值。人脸嵌入的训练过程可以看作是寻找这种隐空间Z 和学习逆映射的联合过程。对于决定性嵌入,逆映射是Dirac delta函数 ,其中f是嵌入函数。显然,对于任何空间 ,考虑到x中存在噪声的可能性,恢复精确的z是不现实的,并且低质量输入的嵌入点将不可避免地偏离其固有隐空间对应码z(无论我们有多少训练数据)。

问题是,这个偏移必须限定在一个范围内,这样类内距离才不会大于类间距离。然而,这对于完全无约束环境下的人脸识别是不现实的,我们进行了一个实验来说明这一点。让我们从一个简单的例子开始:给定一对相同的图像,确定性嵌入总是将它们映射到同一点,因此它们之间的距离总是0,即使这些图像不包含人脸。这意味着“一对图像相似甚至相同并不一定意味着它们属于同一个人的概率很高”。

为了证明这一点,我们进行了一个实验,通过手动降解高质量图像并可视化它们的相似性得分。我们从LFW数据集 [10] 中随机选择每个主体的高质量图像,并手动将高斯模糊、遮挡和随机高斯噪声插入到面部。特别地,我们线性增加高斯核的大小,遮挡率和噪声的标准差来控制退化程度。在每个退化水平,我们用64层CNN提取特征向量,这与最先进的人脸识别系统相当。特征被规范化为一个超球面嵌入空间。然后,报告了两种类型的余弦相似性:

(1)两幅原始图像与其各自的退化图像之间的相似性

(2)不同身份的退化图像之间的相似性。

图3

如图3所示,对于所有三种类型的退化,真实相似度得分都会减少到0,而冒名顶替者相似度得分会收敛到1.0!这表明在完全无约束的情况下,即使模型非常自信(非常高/低的相似性分数),也可能出现两种类型的错误:

(1)低质量假冒图像对被错误地接收;

(2)真实的混合质量图像对被错误地拒绝;

为了证实这一点,我们在IJB-A数据集上分别找到得分最高/最低的冒名顶替者/真实图像对来测试模型。情况和我们假设的完全一样(见图4)。我们称之为特征模糊困境,它是在确定性嵌入被强制估计模糊面的特征时观察到的。实验还意味着存在一个暗空间,模糊的输入人脸将会映射到这个暗空间,距离度量在这里变得扭曲。

图4

4. 概率人脸嵌入

为了解决上述由数据不确定性引起的问题,我们提出将不确定性编码到人脸表示中,并在匹配过程中加以考虑。具体地说,我们不是建立一个在隐空间中给出点估计的模型,而是估计隐空间中的分布 来表示一个人脸的隐外观。特别是,我们使用多元高斯分布:

                                                                      

(1)

其中 和  都是由第 个输入图像 所预测的D维向量。在这里,我们只考虑对角协方差矩阵,以减少面部表示的复杂性。此表示应具有以下属性: 1. 中心 应编码输入图像的最可能的面部特征。2. 不确定性σ应编码模型沿每个特征维的置信度。

此外,我们希望使用单一网络来预测分布。考虑到新的训练人脸嵌入的方法仍在开发中,我们的目标是开发一种方法,可以将现有的确定性面部嵌入网络以简单的方式转换成PFEs。接下来,我们将首先介绍如何比较和融合PFEs表示来展示它们的优点,然后提出学习PFE的方法。

4.1 用PFE匹配

给定一对输入图像 的PFE表示,我们可以衡量它们属于同一个人的“可能性”(因为它们共享一个隐空间对应码)。描述如下: ,这里的 。特别地,

                        

 

(2)

我们可以用对数似然来代替,则可以转化为:

这里的 指第l个维度下的 ,同理 也是。

注意,这种对称性度量可以看作一种数学期望,即在一个获得一个输入隐空间码z的条件下,另一个输入隐空间码也是z的可能性期望:

 

                                                                                   

(4)

 

我们把这个称为互相似然得分(MLS)。不同于KL散度,这个指标是无界的,并且不能看作为距离度量。即当σ=0 的时候,平方欧式距离可以看作特殊情况下的MLS。

特性1:如果将 固定不变,则MLS可以看作一种特殊的平方欧式距离。

此外,当允许不确定性不同时,我们注意到MLS具有一些有趣的特性,使得它不同于距离度量:

1. 注意机制:方程(3)中括号中的第一项可视为一个加权距离,它将较大的权重分配给较小的不确定维度。

2. 惩罚机制:方程式(3)中括号中的第二项可被视为惩罚具有高不确定性维度的惩罚项。

3. 如果输入 都有很大的不确定性,MLS将变低(因为惩罚),而不管它们的平均值之间的距离。

4. 只有当两个输入都有很小的不确定性,并且它们的均值彼此接近时,MLS才可能非常高。

最后两个性质表明,如果网络能够有效地估计 ,PFE可以解决特征模糊问题。

4.2 用PFE融合

在许多情况下,我们有一个模板(集)的人脸图像,为此我们需要建立一个紧凑的隐空间表示来进行匹配。使用PFEs,可以推导出隐空间表示的融合公式(图5)。

使 为来自同一个人的多个观测(即脸部图像), 为第n次观察后的后验概率分布。然后,假设所有观测值都是条件独立的(给定隐空间码为 )。可以看出:

                                          

 

 

(5)

其中α是标准化因子。为了简化表达,我们在接下来的推导中只考虑一维的情况;不过可以很容易地扩展到多维的情况。

如果假设p(z)是非信息先验,即p(z) 是方差接近∞的高斯分布,则方程(5)中的后验分布是具有较低不确定性的新高斯分布(见A节)。此外,给定一组人脸图像 ,融合表示的参数可以直接由下式给出:

                                                                          

 

(6)

                                                                             

 

(7)

在实践中,由于条件独立性假设通常不成立,例如视频帧包含大量冗余,等式(7)将被集合中的图像数量所偏移。因此,我们取维数最小值来获得新的不确定性。

与质量感知池化的关系。如果我们考虑这么一种情况:所有的维度都共享相同的方差 ,我们使质量值 成为网络的输出。则公式(6)可以被改写为:

                                                                                       

 

(8)

如果我们融合后不用不确定性模块的输出,这个算法就和近年来质量感知相关的方法[43,22,41]一样了。(Note: 当σi为常数时,融合后的PFE就与Quality-aware一样了)

4.3 PFE的学习

注意,任何确定性嵌入函数f,如果适当优化,确实可以满足PFEs的性质:(1)嵌入空间是一个分离的身份性显著的潜空间,(2) 表示潜空间中给定输入的最可能特征。因此,在本文中,我们考虑了一种阶段性的训练策略:给定一个预先训练好的嵌入模型f,我们固定它的参数,取 ,并优化一个附加的不确定性模块来估计σ(x) 。当不确定性模块在嵌入模型的同一数据集上进行训练时,这种阶段性的训练策略比端到端的学习策略能更公平地比较PFE和原始嵌入 。(Note: 先预训练μ(x) ,固定μ(x) 再训练σ(x) )

不确定性模块是一个具有2个全连接层的网络,它们共享与瓶颈层相同的输入。优化准则是最大化所有正例图像对  的相互似然得分(MLS)。形式上,要最小化的损失函数是:

                                                                      

其中p是所有正例图像对的集合,s在等式(3)中定义。在实际应用中,每小批都对损失函数进行了优化。直观地说,这种损失函数可以理解为最大化 的方法:如果所有可能的正例图像对的隐空间分布具有大的重叠,则隐空间目标 对于任何对应的x 都应该有一个大的可能性 。注意到由于μ(x) 是固定的,优化不会导致所有的 崩塌到一个点。

5. 实验

在本节中,我们首先在标准人脸识别协议上测试所提出的PFE方法,以与确定性嵌入进行比较。然后我们进行定性分析,进一步了解PFE的行为。由于篇幅有限,我们在补充材料中提供了实施细节。为了全面评价PFEs的功效,我们在7个基准数据集上进行了实验,包括众所周知的LFW [10] 、YTF [38] 、MegaFace [14] 和其他4个无约束环境的基准数据集:

CFP [29] 包含500名受试者的7000张正面/侧面照片。我们只测试了正脸部分的数据,它包括7000对正脸。

IJB-A [19] 是一个基于模板的基准数据集,包含25813张500人的人脸图像。每个模板包括一组静态照片或视频帧。与以前的基准相比,IJB-A中的面具有更大的变化,并且呈现出更无约束的场景。

IJB-C [23] 是IJB-A的一个扩展,包含140740张3531名受试者的面部图像。IJB-C的验证协议包含更多的假冒图像对,因此我们可以在较低的错误接受率(FAR)下计算真接受率(TAR)。(Note: 先定FAR,在不超过FAR的基础上计算模型的TAR)

IJB-S [12] 是一个监控视频基准,包含350个监控视频,总共30小时,5656个注册图像,202个受试者的202个注册视频。这个数据集中的许多人脸都是极端姿势或低质量的,这使得它成为最具挑战性的人脸识别开源数据集之一(如图2所示)。

我们用CASIA-WebFace[44]和MS-Celeb-1M [8]作为训练集(我们将MS-Celeb-1M训练集中和测试集主体相同的部分去除了)。

表1 在CASIA-WebFace上训练的结果

“Original”表示决定性嵌入的结果。粗体字表示比较中更好的结果。“PFE”采用互相似然分数(MLS)来进行匹配。在IJB-A上预定的错误接受率为0.1%。

表2 在MS-Celeb-1M上训练的结果

5.1 在不同基础嵌入方法上的实验

由于我们的方法通过转换现有的决定性嵌入,我们要评估它如何工作于不同的基础嵌入方法,即用不同的损失函数训练人脸表示。具体来说,我们实现了以下最新的损耗函数:Softmax + Center Loss [36]、Triplet Loss[28]、A-Softmax[21]和AM-Softmax[34]。为了与前面的工作[21, 35] 保持一致,我们训练了一个64层的残差网络 [21] ,其中每个网络的损失函数都是以CASIA-WebFace数据集为基本模型。所有的特征都l2归一化为一个超球面嵌入空间。然后在CASIA-WebFace上对每个基本模型的不确定性模块进行3000步的训练。我们评估了四个基准:LFW[10]、YTF[38]、CFP-FP[28]和IJB-A[18]的性能,这四个基准在人脸识别方面提出了不同的挑战。结果见表1。在所有情况下,PFE都比原来的表示方法有所改进,这表明所提出的方法在不同的嵌入和测试场景下都是健壮的。

5.2 与最先进的人脸识别方法比对

为了与最先进的人脸识别方法进行比较,我们采用了不同的基础模型,这是一个用AM-Softmax作为损失函数训练在MS-Celeb-1M上训练的网络。然后,我们固定模型的参数并且在同样的数据集上单独训练不确定性模块12000 步。在下面的实验中,我们主要比较3个方法:

•基准线。仅使用64层确定性嵌入的原始特征以及余弦相似性进行匹配。对于模板/视频基准,使用平均池化。

使用PFE和方程(6)中的不确定性估计σ来聚合模板的特征,但使用余弦相似性进行匹配。如果不确定性模块能够有效地估计特征的不确定性,那么通过给置信度较高的特征赋予更大的权重,融合不确定性模块应该能够优于平均池化的效果。

使用σ 进行融合和匹配(具有相互似然得分)。模板/视频基于等式(6)和等式(7)进行融合。

在表2中,我们展示了三个相对简单的基准数据集:LFW、YTF和MegaFace的结果。虽然LFW和YTF的精度已接近饱和,但所提出的PFE仍然提高了原始表示的性能。注意,MegaFace是一个有偏差的数据集:因为所有的高质量图像都是来自FaceScrub的,所以MegaFace中的正对都是高质量图像,而负对最多只包含一个低质量图像10。因此,由特征模糊困境(第3节)引起的两种类型的错误都不会出现在MegaFace中,它自然倾向于决定性嵌入。然而,在这种情况下,PFE仍然保持性能。

在表3和表4中,我们展示了三个更具挑战性的数据集:CFP、IJB-A和IJB-C的结果。这些数据集中的图像在姿势、遮挡等方面表现出更大的变化,面部特征可能更加模糊。因此,我们可以看到,PFE在这三个基准上实现了更显著的改进。特别是对于FAR=0.001%的IJB-C,PFE将错误率降低了64%。此外,简单地将原始特征与学习不确定性(PFEfuse )融合也有助于提高性能。

在表5中,我们报告了最新基准IJB-S的三个协议的结果。同样,PFE能够在大多数情况下提高性能。请注意,“监视到静止”和“监视到预定”中的图库模板都包括高质量的正面照片,这些照片几乎没有什么特征模糊。因此,在这两个协议中,我们只能看到一点性能差距。但是在最具挑战性的“监视到监视”协议中,使用不确定性进行匹配可以获得更大的改进。此外,PFEfuse+match 在所有开放集协议上都显著提高了性能,这表明MLS对绝对成对得分的影响大于相对排名。

5.3 定性分析

为什么和什么时候PFE可以提高性能?我们首先使用PFE表示和MLS在第3节重复相同的实验。这里使用同一个网络作为基本模型。如图6所示,尽管低质量的假冒者对的分数仍在增加,但它们的收敛点低于大多数真实分数。同样,交叉质量正例图像对的得分收敛到一个高于大多数假冒者得分的点。这意味着第3节中讨论的两类错误可以通过PFE解决。图7中的IJB-A结果进一步证实了这一点。图8显示了估计不确定度在LFW、IJB-A和IJB-S上的分布。可以看到,不确定度的“方差”按以下顺序增加:LFW



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3