三维人脸识别研究进展综述

您所在的位置：网站首页 › 3d人脸识别算法是什么意思 › 三维人脸识别研究进展综述

三维人脸识别研究进展综述

2024-05-21 01:50| 来源: 网络整理| 查看: 265

人脸识别是一个热门的研究课题，目前很多人脸识别方法已经得到实际应用。Wang等[1]对二维人脸识别方法进行了详细的总结。三维人脸识别由于在应对光照变化、姿态变化、化妆、作伪攻击等方面比二维人脸识别更具优势，因此能适用于更多的场景。王跃明等[2]对三维人脸识别方法进行了总结，但时间较早，没有涵盖当前的研究进展。Patil等[3]主要总结分析了三维人脸识别中的三维模型配准方法和手工特征提取方法。Soltanpour等[4]总结了基于局部特征的人脸识别方法，这些方法主要针对高精度的三维人脸扫描数据。近几年随着低精度RGB-D相机的普及，使得获取大量三维人脸数据变得更加容易。同时，深度学习技术开始大量应用于三维人脸识别。因此，有必要对三维人脸识别方法的最新进展进行总结，通过分析现有方法存在的问题，预测技术发展趋势。

1 三维人脸识别方法

一般认为，三维人脸识别是相对于二维人脸识别而言的。二维人脸识别中使用的数据是二维图像，二维图像本质是三维物体在二维平面的投影。由于人脸本身具有三维属性，因此使用三维人脸数据进行人脸识别更具有优势。三维人脸数据可以从二维彩色图像估计得到，也可以利用三维成像设备直接获取。从二维彩色图像估计的人脸深度数据可靠性不高，且容易受光照、姿态、表情、遮挡等因素影响。因此，目前三维人脸识别中更常用的方法是直接利用三维成像设备获取三维形状数据。三维成像设备主要包括高精度的三维扫描仪和低精度的RGB-D相机。前者主要包括Minolta vivid 910、Mega capturor等，能获得高质量的三维人脸数据，但设备成本较高，采集时间长，采集过程中需要被采集对象保持固定的姿态；后者主要包括Kinect、Realsense等深度相机，设备成本低，采集速度快，易于大规模使用，但获取的深度图质量较低，噪声较大，通常需要与彩色图同时用于人脸识别，才能获得较好的人脸识别精度。本文根据三维人脸数据的来源，将三维人脸识别方法分为基于彩色图像的三维人脸识别方法、基于高质量三维扫描数据的人脸识别方法、基于低质量RGB-D图像的人脸识别方法。

1.1 基于彩色图像的三维人脸识别

这类方法通常从彩色图像重建三维人脸模型，然后借助三维模型进行人脸识别，主要方式包括：利用三维人脸模型的参数进行人脸识别、利用三维人脸模型合成新的人脸图像进行识别。

1) 利用三维人脸模型的参数进行人脸识别。

Blanz等[5]利用三维形变模型(3-D morphable model，3DMM)进行人脸识别。该方法从单张图片重建具有纹理的三维人脸模型，即估计3DMM的形状参数和纹理参数，然后根据这些参数的Euclid距离判断是否属于同一个人。这种方法利用了三维人脸模型的优势，在特定条件下取得了较好的识别效果，其主要缺点是受光照影响较大，且计算量很大。

尹宝才等[6]提出基于3DMM和部件技术相结合的多姿态三维人脸识别方法。为提升识别精度，该方法将三维人脸划分为不同的组成部件，通过3DMM重建人脸部件，并将不同部件的几何参数和纹理参数组合起来作为识别特征。识别时，根据单个部件的识别率确定其在整体分类中的权值，从而提高识别效果。

Paysan等[7]构造了用于三维人脸建模和识别的统计模型BFM(Basel face model)。通过将BFM匹配到彩色图像，就可获得相应的姿态参数、光照参数、人脸身份系数等。在识别阶段，直接比较不同模型的人脸身份系数即可。由于BFM只能对中性人脸进行建模，因此不适合有表情的人脸图像。

Liu等[8]提出了一种二维与三维相结合的人脸识别方法，如图 1所示。首先，从图像重建三维人脸模型；然后，根据彩色图像和三维人脸模型分别计算相似度得分，具体是利用深度神经网络的方法获得彩色图像的相似度得分，通过ICP(iterative closest point)方法获得gallery集和probe集中三维人脸模型的相似度得分；最后，对2个得分进行加权，从而得到识别结果。与只使用彩色图像进行人脸识别的方法相比，彩色图像结合三维人脸模型的方法能显著提升人脸识别精度。

图 1 基于彩色图像的二维和三维相结合的人脸识别方法[8] 图选项

2) 利用三维模型合成新的人脸图像进行识别。

Jiang等[9]提出了基于单张图像的快速三维人脸建模方法，利用重建的三维人脸模型，渲染不同姿态、不同光照、不同表情的图片作为训练集。这种方法可以在一定程度上减轻光照和姿态的影响，提升人脸识别的鲁棒性。Tang等[10]根据重建的三维模型投影生成多姿态人脸图像库，从而将不同姿态下的人脸识别问题转化为同一姿态下2幅照片的识别问题。同样，Prabhu等[11]对gallery集中的二维图像，利用三维通用弹性模型生成对应的三维人脸，并将重建的三维人脸在不同姿态下渲染得到一组二维人脸图像，将其作为新的gallery集。识别时，首先估计将被查询图像的头部姿态，然后在新的gallery集中查找类似姿态的人脸图像进行比对。这种方法对于姿态变化的人脸识别具有一定的效果。

除了使用三维人脸模型合成不同姿态、光照、表情的图像，研究人员还借助三维人脸模型区纠正人脸图像中的姿态和表情。Zhu等[12]使用3DMM估计二维图像中人脸的姿态、表情、身份参数，在此基础上，通过旋转模型、调整表情参数、细节纹理合成等步骤，将原始人脸图像修正为无表情的正面人脸图像。最后基于修正后的人脸图像进行识别。实验发现，使用修正的人脸图像后，不管是采用传统识别模型还是深度神经网络模型，都能显著提升人脸识别精度。Hassner等[13]使用了一个平均的三维人脸模型进行人脸正面化(frontalization)，同样也有助于人脸识别。

可以看到，基于二维图像的三维人脸识别方法通常需要进行三维人脸建模。这类方法的主要优点是可以有效降低姿态、表情等因素对识别的影响，同时也可以有效利用三维人脸统计模型和三维人脸数据库等先验信息；主要缺点是三维人脸建模比较耗时，建模的精度对识别结果影响较大。此外，由于同一个人的不同图像的建模结果会存在差异，从而影响人脸识别结果，而现有方法大都没有系统考虑这个问题。一些方法绕过三维人脸建模，通过深度学习的方法将人脸图像正面化[14]，或者合成特定视角的人脸图像[15]，这个过程直接学习二维图像到二维图像的映射，没有利用三维数据，因此本质上仍是二维人脸识别。为解决人脸识别训练集中人脸姿态分布不均匀的问题，Tang等[16]使用基于三维人脸重建的方法合成不同姿态的人脸图像，从而构造人脸姿态均匀分布的训练集，并利用这些图像训练生成对抗网络，旨在获得更好的人脸特征表示。如何将三维人脸建模与特征学习的方法更好结合起来，仍需进一步研究。

1.2 基于高质量三维扫描数据的人脸识别方法

目前大部分三维人脸识别方法都是基于高质量的三维扫描数据。从三维扫描数据可以提取不同类型的人脸特征。根据人脸特征的类型，可将现有方法分为3类：基于全局特征的方法、基于局部特征的方法、基于深度特征的方法。

1.2.1 基于全局特征的方法

基于全局特征的方法通常将三维人脸作为一个整体进行识别。这类方法可进一步分为在空域对三维人脸进行匹配的方法、基于3DMM的人脸识别方法、基于曲线的人脸识别方法、将三维人脸数据转换为二维图像的方法等。

1) 在空域对三维人脸进行匹配的方法。

这类方法通常将三维点云的坐标或法向量作为特征进行人脸匹配。ICP方法是进行三维人脸匹配的常用方法。通过ICP对齐2个三维人脸后，再根据点云之间的匹配误差进行识别。由于ICP对噪声敏感，研究人员也提出了一些改进的方法[17-18]。Papatheodorou等[18]将人脸表示为四维点集，集合中的元素由某点的三维坐标和二维图像中对应点的灰度组成，然后使用ICP进行匹配。ICP适合刚性曲面间的匹配，但人脸并不是刚性表面。因此，一些方法仅使用受表情影响较小的区域进行识别。Chang等[19]选择鼻子区域进行ICP配准和识别。Faltemier等[20]将人脸分为28个具有重叠的区域，通过ICP方法匹配每个区域，得到配准误差后，再融合这些区域进行人脸匹配。Mohammadzade等[21]首先找到三维人脸的鼻尖点，根据鼻尖截取一定范围的人脸区域。然后根据一个参考人脸模型，使用迭代最近邻法向点(iterative closest normal point)方法为每个三维人脸数据找到与参考模型对应的最近邻点集；最后将这些点的法向量作为特征进行人脸识别。ICP配准人脸后，一般将匹配点的平均距离作为两个人脸的相似性度量。由于平均距离受噪点的影响较大，一些文献还使用Hausdorff距离作为2个点集的相似性度量[22]。为减少噪点及三维点云采样差异对ICP配准的影响，Yu等[23]使用稀疏ICP结合重采样的方法进行配准，取得了较好的识别效果。

Queirolo等[24]使用表面互穿度量(surface interpenetration measure，SIM)作为2个三维点云的相似度度量函数，并使用模拟退火算法代替ICP算法进行配准。为提升配准效果，该方法首先检测深度图中的眼角、鼻尖等6个特征点，在此基础上计算鼻子区域、上部分脸、整个脸等区域的SIM特征，最后综合这些区域的特征进行人脸识别。

2) 基于3DMM的人脸识别方法。

Amberg等[25]使用中性和带表情的三维人脸扫描数据构建3DMM，然后使用非刚性ICP算法匹配三维点云，得到3DMM的形状参数和表情参数。这种方法可以避免表情的影响，但建模需要的时间较长，不适合大规模的人脸识别。Haar等[26]也构造了身份和表情变化的人脸模型，利用该模型将身份系数和表情系数分离，实现表情变化的人脸识别。Booth等[27]利用9 663人的扫描数据构造了人脸的3DMM。与BFM模型相比，该模型能更准确重建三维人脸模型，显著提高年龄和性别估计的精度，因此对提升人脸识别精度也具有潜在价值。

3) 基于曲线的人脸识别方法。

这类方法在人脸曲面上选取一组曲线作为人脸的表示，从而将三维人脸识别转化为二维曲线的匹配问题，大幅降低三维人脸匹配的难度。对于曲线，可以将其离散为特征向量进行匹配。常用的曲线包括中心侧影线、水平线、等测地线、径向曲线等。

Pan等[28]利用人脸自对称的特点配准原始模型和镜像模型，使用最小二乘法拟合得到对称面，然后借助对称平面定位中心侧影线。Efraty等[29]同样利用中心侧影线进行人脸识别，通过在曲线上选取一组关键点，根据Hausdorff距离进行识别。Li等[30]不仅从三维人脸曲面上提取中心侧影线，还根据曲率极值提取面部凸峰线(convex crest curves)等曲线，在这些曲线上等距离采样，得到的点作为人脸的特征表示。

Samir等[31]将一个平面放在人脸曲面中并进行平移，该平面与人脸曲面的交叉线组成一组水平曲线，通过水平曲线表示三维人脸曲面，然后定义曲线距离的度量。该方法要求三维扫描数据具有相似的姿态。

由于水平线受姿态影响较大，Samir等[32]提出使用等测地线进行识别。该方法选择鼻尖作为参考点，根据一定的测地距离选择一组等测地线表示人脸。Berretti等[33]提出了使用等测地条纹的方法。该方法根据人脸网格点到鼻尖的测地距离，将脸网格点划分到不同的距离区间，并使用基于图的方法对等测地条纹进行匹配。

Drira等[34]使用基于鼻尖的径向曲线来表示整个人脸曲面。该方法首先定位鼻尖点，然后每隔一定角度使用一个经过鼻尖的平面对人脸曲面进行切分，平面与人脸曲面的相交线即为径向曲线，如图 2所示。由于遮挡或曲面数据缺失的问题，有些径向曲线不连续或过短，这些径向曲线被丢弃，其余曲线用于人脸识别。曲线间的距离通过弹性形状分析方法得到。Lei等[35]同样以鼻尖为起点，每隔一定角度定义一条曲线，依据该曲线在人脸深度图上进行采样，采样点的深度值组成向量，称之为ARS(angular radial signature)。为了减少表情的影响，仅提取上半部分脸的特征。然后使用核主成分分析方法将ARS映射到高维特征空间。最后使用支持向量机进行人脸识别。

图 2 三维人脸曲面及其径向曲线表示[34] 图选项

4) 将三维数据转换为图像提取特征的方法。

这类方法通常将三维数据转换深度图、法向图等图像后提取整体特征，能有效借鉴二维人脸识别的方法。Chang等[36]在深度图中截取人脸区域，通过主成分分析的方法进行人脸识别。由于遮挡、姿态变化等因素影响，三维扫描数据会存在空洞、数据缺失的问题。因此，Passalis等[37]利用人脸对称性和AFM(annotated face model)将三维扫描数据转化为几何图和法向图。该方法首先在三维扫描数据上定位一组三维关键点，然后利用人脸对称性和三维关键点将AFM通过非刚性配准拟合到三维扫描数据，并通过UV参数化将三维模型生成几何图像和法向图，对这些图像进行小波分析获得用于识别的人脸特征。Liu等[38]将点云数据转换为球面深度图，球面深度图可以较好地表示人脸曲面，然后从球面深度图提取球谐波特征用于识别。

1.2.2 基于局部特征的方法

与全局特征相比，局部特征对脸部表情变化和遮挡更具鲁棒性。局部特征通常是在关键点或局部曲面的基础上提取的，可以将这类方法分为基于关键点的方法和基于局部曲面的方法。

1) 基于关键点的人脸识别方法。

基于关键点的方法通常包括关键点检测、关键点特征描述、特征匹配等步骤。关键点包含2种类型：一种是根据面部器官定义的人脸特征点，如眼睛、鼻子、嘴部、眉毛等部位的轮廓点；另一种是根据形状显著性定义的关键点。

基于人脸特征点的方法需要准确定位人脸特征点。Gupta等[39]依据人脸结构的特点从脸部手动选取了25个关键点，然后计算这些点的测地距离，在此基础上定义了一组比例系数，将其作为人脸的特征。手动选取特征点非常麻烦，因此研究人员提出了自动定位特征点的方法。Perakis等[40]使用3-D形状描述子来定位特征点。3-D形状描述子包括形状索引(shape index)和旋转图像(spin image)，其中形状索引是3-D物体表面主曲率组成的图，旋转图像则描述了三维点的分布。将3-D形状描述子与人脸特征点的模型进行匹配，即可定位人脸特征点。Emambakhsh等[41]利用鼻子区域的特征点进行人脸识别。首先定位鼻尖并提取鼻子区域的三维面片。然后进一步定位鼻子区域的7个关键点。根据这些关键点，选取鼻子区域内的子块并进行Gabor小波滤波，然后统计法向量的直方图并将其作为人脸的特征。此外，还可参考二维人脸识别的方式，根据特征点从深度图提取LBP(local binary pattern)等特征进行识别。由于深度图中的人脸特征点比较稀疏，这种方式提取的特征可区分性不强。

基于显著性关键点的方法是根据形状的显著性来检测关键点。Berretti等[42]在深度图上检测SIFT关键点，通过SIFT特征进行人脸识别。Inan等[43]从曲率图检测SIFT关键点。由于深度图或曲率图上的SIFT特征对大角度变化比较敏感。因此，Smeets等[44]直接在3-D网格上提取SIFT特征。Li等[45]提出了在3-D网格上提取SIFT-like特征的方法。该方法基于曲率检测关键点；然后根据关键点建立局部坐标系提取姿态无关的特征，这些特征对应于三种曲面微分量；最后使用多任务稀疏表示的匹配方法进行人脸识别。该方法在几个公开的人脸数据库上都取得了较好的效果。Elaiwat等[46]通过曲波变换的方法检测深度图的关键点，并计算不同尺度和不同方位的曲波系数，与SIFT相比计算量更小。Mian等[47]采用如下方式检测关键点：对某一个网格点，以该网格点为中心，选取一定半径内的网格点，计算这些网格点的均值和协方差矩阵，再进行主成分分析。如果前2个主元向量的差值大于一定的阈值，则将该网格点视为关键点。然后将一个局部曲面拟合至关键点的邻域提取局部特征。Lei等[48]采用与Mian等[47]类似的方法从三维点云数据中检测关键点。对每个关键点，根据其所在的局部曲面，提取距离、角度等信息组成多三角统计(multiple triangle statistic)特征；再结合稀疏表示的方法对特征进行编码；最后通过稀疏表示的残差进行人脸识别。郭蓓等[49]利用多尺度形状变化指数在三维人脸曲面上检测关键点，然后根据关键点提取法向分布直方图描述子和协方差矩阵描述子，依次比较这2种特征描述子，根据关键点的匹配数量进行人脸识别。

2) 基于局部曲面的方法。

常用的方法是从深度图的局部面片提取LBP特征后进行识别。由于传统的LBP特征不能有效区分人脸曲面，因此Huang等[50]使用3-D LBP进行人脸识别。3-D LBP不仅考虑深度差的正负性，还考虑深度差的数值。该方法对人脸深度图的每个像素提取3-D LBP特征后，将深度图转化为多张LBP图。为进一步提升算法的鲁棒性，该方法对LBP图提取SIFT特征，采用全局和局部匹配的方式匹配特征。

为了直接从人脸三维网格中提取LBP特征，Tang等[51]将三维人脸划分为若干区域。对于区域内的每个网格点，定义其周围8邻域的网格点，然后根据网格点及其邻域网格点的深度值和法向量分别提取LBP特征。将2种LBP特征组合后，采用最近邻方法进行人脸识别。

Werghi等[52]也提出了基于三维网格的LBP特征，称之为mesh-LBP，并将其应用于3-D人脸识别。对于网格中的某个三角面片，将其作为中心面片，根据该面片的3条边找到与其相邻的3个面片，在此基础上查找中心面片周围1圈的面片，重复该过程就可查找到多个由三角面片组成的环，如图 3所示。在环上采样固定数量的三角面片，比较中心面片与环上面片的曲率，参照传统LBP的定义，就可得到该面片的mesh-LBP特征。然后根据预先定义的关键点，将人脸划分为一组区域，统计每个区域中mesh-LBP的直方图，得到人脸识别的特征。

图 3 三维网格模型中查找中心面片的周围面片环的过程[52] 图选项

Soltanpour等[53]将深度图转化为法向图，分别在法向图的x、y、z三个通道上提取多尺度局部法向导数模式(local normal derivative pattern，LNDP)。LNDP通过比较导数正负号的变化对特征进行编码。得到每个像素点的LNDP后，再将法向图分为若干子区域，统计每个区域的LNDP直方图，将其作为人脸特征。

Wang等[54]首先通过对称平面、鼻尖、鼻梁的法线纠正三维点云的姿态。然后根据2个对齐的三维点云分别生成深度图，计算深度图的差异，得到有符号形状差异图(signed shape difference map，SSDM)。这样就将三维人脸识别问题转化为判断SSDM是来自同一个人还是不同的人。然后从SSDM提取Haar、Gabor、LBP三类局部特征，并使用boosting方法选择关键特征进行人脸识别。

Hariri等[55]在三维人脸曲面上均匀选取一组关键点及相应的曲面块，在此基础上根据网格点的坐标、曲率等构造特征向量，计算特征向量的协方差矩阵，并定义协方差矩阵的距离，根据协方差矩阵的距离进行人脸识别。

1.2.3 基于深度特征的三维人脸识别方法

目前基于深度学习的二维人脸识别取得飞速发展，研究人员也逐步将深度学习应用于三维人脸识别。深度学习方法提取的特征通常称为深度特征。为克服三维人脸训练数据较少的问题，Kim等[56]先通过大量的二维彩色图像训练VGGNet模型，然后用深度图对神经网络模型进行微调。Li等[57]将三维数据转换为法向图，并利用经过彩色图预先训练好的VGGNet模型[58]从法向图提取深度法向模式(deep normal patterns, DNP)，然后使用稀疏表示的方法进行识别。由于深度模型具有较好的泛化能力，该方法提取的DNP特征也能较好地识别人脸。

Gilani等[59]将现有限的三维人脸扫描数据，通过组合的方式合成新的三维人脸数据，以此扩大训练数据中人脸身份的数量，同时通过变换视角合成不同视角下的三维扫描点云，从而形成百万数量级训练数据。然后将每个三维点云转换为由深度图、方位图和仰角图组成的三通道图像，通过这些图像训练CNN (convolutional neural network)提取深度特征。

Cai等[60]首先定位三维点云上的眼睛、鼻尖3个关键点，根据3个关键点进行姿态校正。再将三维点云转换为深度图，从深度图中提取4个具有一定重叠的子图。每个子图输入到ResNet中，提取128维特征向量。最后将4个子图的特征向量串联成512维特征向量进行识别。

1.3 基于低质量RGB-D图像的三维人脸识别

近些年Kinect、Realsense等RGB-D相机逐渐广泛应用，一些手机也配备了RGB-D摄像头，这使得基于RGB-D图像的人脸识别具有迫切的应用需求。与高精度的三维扫描设备相比，RGB-D相机成本较低，能快速采集彩色图和深度图，但获取的深度图质量较低(见图 4)，仅使用深度图难以获得较好的人脸识别精度。因此，通常需要同时利用彩色图和深度图进行识别。

图 4 三维人脸数据的对比[63] 图选项

Hsu等[61]研究了这样一种人脸识别场景：人脸库中每个人都有人脸彩色图和深度图，而被查询者只有人脸彩色图。这种应用方式非常有利于将RGB-D相机融入到当前以彩色相机为主的人脸识别应用场景。该方法首先利用RGB-D数据为每个人建立一个带纹理的三维人脸模型，通过使用人脸关键点将重建的人脸模型与被查询者的人脸图像注册到一起，最后用稀疏表示的方法对人脸图像提取特征并加以识别。

Goswami等[62]通过基于熵和显著性的方法提取彩色图像特征，从深度图中提取几何人脸属性，将两者融合后进行识别。Min等[63]建立一个用于RGB-D人脸识别的数据库，并使用PCA、LBP、SIFT等方法测试了数据的人脸识别性能。Xu等[64]使用度量学习的方法从RGB-D图像中学习通用的距离度量。Li等[65]通过多通道稀疏编码的方法，分别从对齐后的人脸彩色图和深度图提取人工特征，最后将特征融合。

Lee等[66]将基于深度学习的二维人脸识别扩展到RGB-D人脸识别，通过2个神经网络模型分别对彩色图和深度图提取特征和融合特征。为弥补深度图训练数据不够的问题，该方法先用彩色图训练一个神经网络，然后在小规模深度图数据上进行迁移学习。

Zhang等[67]采用深度学习的方法进行RGB-D图像人脸识别方法。通过采用先单独训练再联合训练彩色图和深度图的神经网络结构，从不同模态的图像数据学习互补特征和共同特征，还采用该方法进一步研究了RGB-D gallery和RGB probe的跨模态人脸识别问题。

Jiang等[68]提出了利用人脸属性(如年龄、性别、民族)从RGB-D图像中学习更强判别性特征的方法。通过softmax损失函数结合attribute-aware损失函数训练卷积神经网络，取得了较好的人脸识别效果。由于现有RGB-D数据库的规模较小，作者还构造了人数超过10万数量级的图像库，但数据库未公开。

一些研究人员还通过三维人脸建模的方法进行RGB-D人脸识别[69-72]。Gregory等[70]使用3DMM对深度图序列离线重建三维人脸模型，将其作为gallery集。识别时，将三维人脸模型与待查询的深度图进行配准，计算每个网格点与深度图的对应点的距离，将距离作为特征向量。Kim等[71]从深度图重建三维人脸模型后，对比人脸模型的几何距离进行人脸识别。这种方法适用于小规模人脸数据库的识别。Mu等[72]仅使用低质量的三维深度数据训练CNN，得到的人脸识别精度相对较低。这也说明仅依靠低质量三维数据难以提取区分性好的人脸特征。

2 深度学习在三维人脸识别中的应用

深度学习应用于三维人脸识别，主要有2种思路：一种是将三维人脸数据转换为二维图像，从而借鉴二维人脸识别中的深度学习算法；另一种是设计新的网络结构，直接将三维数据输入神经网络。

1) 三维数据转化为图像的方法。

最常用的方式是将深度图视为普通图像输入神经网络。Kim等[56]采用正交投影的方式将三维点云转化为深度图，再将其输入VGGNet网络提取特征。Cai等[60]对深度图进行预处理后，提取深度图中的多个图像块，然后使用ResNet进行人脸识别。Jiang等[68]将三维点云的x、y、z坐标组成三通道图输入ResNet。Li等[73]将三维人脸扫描数据转换为几何图、法向图、曲率图、纹理图，然后将这些图像分别输入到CNN的分支中。

Su等[74]将三维模型生成不用视角下的深度图，然后采用多视角卷积神经网络(multi-view CNN)对多视角下的图像提取特征，并使用视角池化(view pooling)层对多视角图像进行融合。Shi等[75]围绕主轴将三维模型进行圆柱投影，得到三维模型的全景图，然后使用CNN提取特征。通过在卷积层和全连接层插入按行最大池化(row-wise max pooling)层，使得提取的特征不受绕主轴旋转的影响。

2) 输入三维体素或者原始三维数据的方法。

三维体素在三维物体识别中已经比较常见。Wu等[76]将三维形状表示为定义在三维体素网格上的二值张量，0和1分别表示体素在网格曲面外部和内部，使用的网格分辨率为30×30×30体素。然后使用3-D ShapeNet进行三维物体识别。Qi等[77]同样使用三维体素表示三维物体，通过体积卷积神经网络(volumetric CNN)提取特征。用体素表示三维物体会带来量化误差。当体素网格的分辨率增大时，网络参数会急剧增加。因此，网格的分辨率通常比较小。

与使用体素不同，Han等[78]提出了圈卷积受限Boltzmann机(circle convolutional restricted Boltzmann machine, CCRBM)，CCRBM通过在三维模型表面的切平面上进行圆形卷积，从而直接从原始的三维扫描数据学习特征。Qi等提出了PointNet[79]，该网络以三维点云作为输入，提取的特征可用于三维物体识别。为了使得提取的特征与点云的顺序无关，PointNet使用多层感知器、单变量函数和最大池化函数来近似一个对称函数。当前，输入三维体素或者原始三维数据的方法主要用于物体识别，较少用于三维人脸识别，需要开展这方面的研究。

3 双模态融合问题

在获取三维人脸数据的同时，通常也能获取相应的二维彩色彩图。现有研究结果表明[36]，融合二维图像和三维数据的人脸识别结果明显优于仅使用单模态数据的识别结果。融合的方式包括3个层次，即在信号层、特征层、决策层进行融合。

信号层融合是在人脸识别的初始阶段将二维和三维数据融合。Abdelkader等[80]将彩色图和深度图的像素进行串联，根据融合后的数据进行识别。Papatheodorou等[18]将灰度值和三维人脸数据的组成四维空间，在四维空间对人脸数据进行ICP配准。Kusuma等[81]认为不同模态数据融合时需要考虑不同模态数据间的依赖性，进而提出基于PCA的图像重组方法，重构的数据是原始灰度图和深度图的线性组合。Jiang等[68]将点云的坐标转化为三通道图像，与彩色图组成六通道的图像后输入卷积神经网络中提取特征。

特征层融合通常分别从二维和三维数据提取特征，再将特征组合，然后根据组合后的特征进行人脸识别。Xu等[82]首先使用gabor滤波器分别提取深度图特征和灰度图特征，然后使用Adaboost方法选择有效的特征。Werghi等[52]在三维网格上提取形状和纹理的3-D LBP特征，将特征串联后根据特征的距离进行人脸识别。

决策层融合通过2个或多个人脸识别器分别对二维数据和三维数据进行识别，得到相应的得分。然后采用相应的策略对得分进行融合，得到最终的人脸相似度得分。Chang等[36]使用PCA的方法分别识别彩色图和深度图，然后对得分进行加权融合。Li等[65]通过稀疏编码的方法分别识别彩色图和深度图，最后对得分进行融合。

由于在决策层融合相对简单方便，因此大部分方法选择这种融合方式。一般认为，在早期进行融合能更充分地利用不同模态的数据，融合效果优于后期融合的效果。Cui等[83]对融合方式进行了比较，认为不同的融合方式组合后能获得更好的识别效果。

4 三维人脸数据库

三维人脸数据库是三维人脸识别研究的基础。表 1列出了常用的三维人脸数据库。三维数据的类型主要有3种：三维网格模型、三维点云和深度图。这3种类型的数据可以互相转换。对于Minolta扫描仪，采集深度图的同时还记录了相应像素的x、y坐标。对于Kinect相机，获得的三维数据中只记录深度值，但通过相机内参可以计算得到深度图中像素对应的三维空间坐标。表 2列出了一些代表性算法在FRGC v2和Bosphorus数据库上的首位识别率(rank 1 recognition rate)，同时也给出了这些算法使用的数据模态。

表 1 常用的三维人脸数据库数据库人数样本数采集设备彩色图表情和姿态变化情况数据类型 FRGC v2[84](2005年) 466 4 007 Minolta vivid 910 有表情变化 depth image CASIA-3D[85] (2006年) 123 4 624 Minolta vivid 910 有表情变化 mesh BU-3DFE[86](2006年) 100 2 500 3DMD digitizer 有表情变化 mesh Bosphorus[87](2008年) 105 4 666 Mega Capturor 有表情和姿态变化 point cloud UMB-DB[88](2011年) 143 1 473 Minolta vivid 910 有表情变化 depth image EURECOM[63](2013年) 52 936 Kinect 有表情和姿态变化 depth image IIIT-D[62] (2014年) 106 4 605 Kinect 有表情和姿态变化 depth image Lock3DFace[89] (2015年) 509 5 711 Kinect v2 有表情和姿态变化 depth image 表选项表 2 部分算法在FRGC v2和Bosphorus数据库上的首位识别率和数据模态算法首位识别率/% 模态 FRGC v2 Bosphorus Mian等[47](2008年) 96.1 — bi-modal Queirolo等[24](2010年) 98.4 — depth Drira等[34] (2013年) 97.0 87.0 depth Elaiwat等[46](2015年) 97.1 — depth Li等[65](2016年) 95.2 99.4 bi-modal Lei等[48](2016年) 96.3 98.9 depth Emambakhsh等[41](2017年) 97.9 95.4 depth Kim等[56](2017年) — 99.2 depth Gilani等[59](2018年) 97.1 96.2 depth Soltanpour[53](2019年) 99.3 94.8 depth Jiang等[68] (2019年) 98.5 99.5 bi-modal Cai等[60](2019年) 100 99.7 depth 表选项 5 结论

目前基于彩色图像的二维人脸识别方法有了很大进步，但在光照、姿态、表情变化下，人脸识别仍然面临挑战，一个重要的原因是二维人脸图像丢失了深度信息。虽然通过二维图像重建三维人脸模型可以恢复三维人脸形状，但这种方式获得的深度数据可靠性不高，且建模过程通常比较耗时。因此，基于彩色图估计人脸深度的三维人脸识别方法目前已不太活跃，更常用的方式是通过硬件设备直接获取人脸深度数据。基于高质量三维扫描数据的人脸识别方法由于受设备成本和采集方式等因素影响，在现实场景中无法大规模应用。基于低成本RGB-D相机的人脸识别方法能够在更多场合下使用。

三维人脸识别目前存在的主要问题有：

1) 三维数据库的问题。当前大规模的三维数据库仍比较缺乏。现有公开的数据库在人数、表情、姿态等方面仍具有一定局限性。一些三维人脸识别方法在某些测试集上的识别精度已经趋近饱和，但在实际应用时的识别精度显著下降。因此，有必要加大训练集和测试集。高精度三维数据的采集成本较高，数据的存储和处理也需要很大开销。与高精度的深度数据相比，低精度的深度数据的获取更为容易，特征提取的速度也更快。如何同时利用高精度和低精度三维数据进行人脸识别，将是一个值得研究的问题。不同设备获取的三维数据在采样方式、数据存储等方面也存在一定差别，因此还需要解决数据库之间的通用性问题。

2) 二维和三维数据的融合问题。现有方法在信号层、特征层、决策层对融合问题进行了研究，但在不同的条件下哪种融合方式最优仍不明确。在光照和姿态变化条件下如何动态调整二维图像和三维数据的权重、如何融合手工特征与深度特征、如何从二维和三维数据提取互补特征，这些问题都需要进一步研究。

3) 表情变化的影响。表情变化对三维人脸识别仍有较大影响。目前一些方法将嘴部等受表情影响较大的区域排除在外，仅利用受表情变化影响较小的上半部分脸或鼻子区域进行人脸识别。实际上，嘴部区域也包含区分人脸身份的信息，因此可以在结合人脸表情建模和识别的基础上进行人脸识别。

4) 活体检测的问题。活体检测是人脸识别在实际应用中的重要环节。在二维人脸活体检测中，人脸照片、人脸视频是主要的假体人脸。由于活体人脸与假体人脸在深度上具有较大差异，因此三维人脸活体检测能更加有效地应对照片、视频类假体人脸的作伪攻击。三维人脸活体检测需要注重对面具类假体人脸进行检测。目前，大部分活体检测方法的泛化能力不强，主要是由于假体人脸类别多，假体人脸的类内和类间差异大。不同的人脸数据集录制设备和外界环境都会影响活体检测算法的性能。如何提升人脸活体检测算法的泛化能力，将是一个重要研究方向。

【本文地址】

三维人脸识别研究进展综述

三维人脸识别研究进展综述

今日新闻

推荐新闻