【头头是道】全自动面部图像分析用于预测困难气管插管

您所在的位置:网站首页 气道解剖分级 【头头是道】全自动面部图像分析用于预测困难气管插管

【头头是道】全自动面部图像分析用于预测困难气管插管

2024-07-12 09:20| 来源: 网络整理| 查看: 265

A 相关工作

在过去的30年里,麻醉学家提出并使用了许多困难插管定义,但并没有唯一的定义。绝大多数气管内插管是通过喉镜进行的,喉镜可以观察到喉部,并将气管导管置于声带之间插入气管。Cormack和Lehane根据喉部结构的可见性或声门暴露提出了喉镜视图的四种分类。后来,Yentis和Lee对这一分类进行了修改,提出将原有的2级划分为2a级和2b级。后一种分类是用来对困难喉镜检查进行精细化,以达到与3级或4级喉镜相对应的效果。然而,Krage等人最近指出,这种分类的复现性是有限的。此外,虽然声带视图不佳会增加插管的难度,但其他因素,如患者头部的位置或麻醉医师的经验也会影响插管的成功。尽管医学界需要对困难插管的标准进行分类,但目前尚无统一的定义。因此,困难插管的发生率和相关因素因机构而异,几乎无法直接比较。据报道,手术室内喉镜检查困难的发生率在0.3%到13%之间。为了提供一个困难插管的定义,Adnet等人提出了困难插管量表(IDS),包括补充尝试次数、补充操作者数量、使用替代技术数量、声门暴露度、喉镜检查时所施加的抬举力、应用外部喉压以优化声门暴露的必要性、声带位置状态(内收或外展)7个因素。

在过去的25年里,麻醉学家对困难气管插管的预测有了很大的探索。一些生理和形态学特征已被确定为喉镜检查或插管困难的预测因素。这些因素包括肥胖、头部和颈部活动能力差、下颌骨活动能力差、下颌骨后退、上切牙长(龅牙)、张口度缩小(或嘴完全张开的切牙间隙缩小)、甲颏距离缩短(TMD)、颈部短、颈围小。还包括一些困难插管床边筛查试验。

TMD测试,或Patil–Aldreti测试,是指从甲状软骨的上缘到下巴的距离,测量时头部完全伸展。短TMD相当于喉头位置更靠前,只能在一个更尖锐的角度和更狭小的空间里用喉镜片挑起舌头。大于7cm的TMD通常与插管容易有关,而小于6cm的TMD则可能预示插管困难。然而,其预测插管困难的敏感性为48%,特异性为79%,可见这个距离本身并不是一个好的预测因子,通常与其他预测因子联合使用。与单纯TMD相比,身高与甲颏距离之比提高了预测喉镜检查困难的准确性(敏感度和特异性分别为77%和54%)。

Mallampati评分最初由Mallampati et al.描述,Samsoon和Young对其进行了修改。Mallampati评分是根据观察到的口腔咽部结构的可见度来评估气道的。作者的假设是,舌根部越大,它就越遮挡住喉部,导致喉镜观察效果不佳,喉镜检查可能会有困难。因此,在评估气管内插管的难度时,舌头的体积是一个重要但难以评估的参数。由于不可能确定舌的体积相对于口咽腔的容量,因此可以合理的推断,当舌根能够掩饰咽喉部的支持结构和悬雍垂的可见性时,就认为舌根过大可能造成喉镜检查困难。评分范围从第1级到第4级,第1级表示口咽结构完全可见,第4级则完全不可见。许多文献报道了Mallampati和改良的Mallampati测试的不同的灵敏度和特异度。Cattano等报道的敏感性和特异度分别为35%和91%。在Lundstrm等包括55项研究177 088例患者的研究中,报告的敏感性为0%至100%,特异性为44%至100%。他们计算了ROC曲线,曲线下面积(AUC)为0.753,认为诊断试验是好的。Mallampati和改良的Mallampati测试的AUC分别为0.58和0.83。在这些研究中,作者认为Mallampati测试的临床价值是有限的,因为当单独使用时,它的鉴别能力很差。

由Khan等人提出的上唇咬合测试,通过向前移动下颌(做下颌前突的动作)评估患者用下牙齿覆盖上唇的能力。结果从I级到III级不等,I级和II级预测喉镜检查容易,而III级预测喉镜检查困难。作者最初观察到的敏感性为76.5%,特异性为88.7%。这些结果在最近的一项研究中得到了证实(敏感性和特异性分别为78.95%和91.96%)。

Eberhart等人对1107例患者进行了Mallampati测试和上唇咬合测试的比较,得出的结论是,这两种测试都不能很好地预测术前床边单次筛查时喉镜检查的难度。这些简单的测试没有一个被证明在预测困难气道问题上是准确的。其敏感性和阳性预测值普遍较低,不利于对困难气管插管的准确预测。因此,已经有几项研究提出从多变量分析中得出分数。

Wilson风险总和评分在0到2之间对下述五个因素进行评分:体重、头颈部活动度、下颌活动度(下颌前突)、下颌后缩和龅牙。通过改变这些评分之和的阈值,可以改变喉镜检查困难的真阳性率(TPR)和假阳性率(FPR)。作者最初提出的阈值为4,即如果分数大于或等于4,说明气管插管困难。

Arne等人提出了简化的分数模型。除了形态学标准,如切牙间隙,下颌前凸能力,TMD,头颈部活动度,它还考虑了病人的病史和Mallampati评分。

Naguib等人对57例患者进行了临床、影像学和3-D计算机成像研究,其中25例患者有未预料到的插管困难。对临床测量结果进行多元判别分析,确定了与喉镜困难插管相关的4个危险因素:甲胸距离、TMD、颈围、Mallampati分级。

表I显示了报道的三种多变量模型的预测性能。作者在五年的时间里招募了194名患者(97名有气道困难的患者和97名对照组患者)。在他们的研究中,未预料到的困难插管被定义为当使用最佳头颈位(嗅探位)时,存在困难喉镜检查(C-L评分3级4级)和困难气管插管(两次或两次以上的尝试插管)或使用另一个插管设备(喉罩通气或插管探条)的情况。阳性预测值(PPV)和阴性预测值(NPV)的计算基于近期文献报道的5.8%的插管困难发生率。请注意,敏感性、特异性和AUC是比较数据集之间性能的最合适的度量,这主要是由于类不平衡的问题。

最近,Fritscherova等人对148例患者进行了病例对照研究,得出的结论认为统计上较高的三个预测因子是切牙间距离、TMD和颞下颌关节活动度下降。

由于这些测试敏感性和阳性预测值都不高,麻醉学家自己也不认可这些预测的有效性。

利用静态照片、x射线技术或自动三维激光扫描等新技术,致力于颅面表型分析,最近已被应用于困难气道的检测。Suzuki等人通过在患者照片上标记解剖位点,测量数据计算出了5个比率和角度,证明下颌下角似乎与气管插管困难有关。他们还使用变形软件来构建典型的容易和困难的插管模型。Schendel和Hatcher已经使用改进的锥形束计算机断层扫描、三维成像和计算机模拟来评估气道。近年来,一些研究利用机器学习或统计人脸模型来为术前预测气管插管困难提供更好的依据,并为术前预测困难气管插管的有效性进行辩护。然而,这些较新的方法需要x射线或计算机断层成像方法,存在如可用性、成本和对患者的辐射剂量等问题。

Segal等提出的方法,尽管在概念上类似于我们提出的方法,但是也有几个重要的区别。他们的方法不是全自动的,而是半自动的,因为它需要麻醉医生手动标记基准位点和手动测量TMD。为了限制任何潜在的性别和种族混杂的影响,他们只招募了男性白种人。此外,所使用的困难插管的定义并不包括所有的患者,而只包括非常简单和困难的患者,即那些根据其标准插管既不容易也不困难的患者不包括在内。这大大降低了由于困难插管以外的其他因素造成的数据可变性,并使得到的模型不适用于真实的临床环境。由于作者没有将数据清晰地划分为训练集和测试集,并使用测试集来选择模型,因此本文给出了有偏倚的结果。

最后,验证这些新方法的患者人数通常很少。例如,在Connor和Segal中只报道了20例困难和20例简单患者的验证结果,因此不能证明所提出方法的普遍适用性。最近,Cattano等人提出了一种新的气道预测评估形式,但表明它并没有提高住院医师预测困难气道的能力。

我们提出的方法已经在900多名患者身上得到了发展和验证。它不需要任何病史或测量除病人正面和侧面照片以外的数据,该方法甚至对未经训练的人员也很实用,照片的处理是完全自动的,不需要任何手动初始化。处理时间以秒计,使该方法直接适用于临床应用。具体来说,对于四张图像中的一张,人脸检测需要约0.9 s,图像比对、特征提取、分类实时运行约30至40毫秒。为了评估它在真实世界研究中的性能,我们提供了包括所有难度级别的结果,而不仅仅是非常简单和困难的患者。我们证明了所提出的方法可以达到富有经验的麻醉医生手工进行最先进的多因素测试的效果。

本文的概要如下。第二部分中描述了数据收集过程和试验方案。在第三部分中描述了人脸模型的训练和拟合过程,以及学习过程。第四部分描述了所得结果和与Wilson、Arne、Naguib模型比较的结果。第五部分给出了结论和对未来研究课题的讨论。

Ⅱ数据收集

自2012年3月起,洛桑大学医院(CHUV)纳入需要气管插管全身麻醉的成人患者,在术前对除产科和心脏手术以外的任何择期手术类型的患者进行招募。本研究已获瑞士沃州伦理委员会人类研究伦理委员会(伦理批准编号183/09,主席R. Darioli教授)批准。每个病人在术前咨询时可获得麻醉医生关于该研究的适当信息,并给予受试者参与研究的书面知情同意书。

A 试验方案

这项研究在外科预住院中心搭建了一个摄影棚一样的地方(见图1)来收集招募患者的多模态数据。这些数据包括正面和侧面的照片和视频,由两个高清摄像头拍摄,一个在病人的前面,一个在病人的左边,距离大约40厘米。还记录了病人的声音,并用微软Kinect捕捉口腔深度图,以供将来分析。坐在摄影棚时,病人被要求做不同的面部动作和头部动作。这些动作包括自然表情,张开嘴,伸出舌头,侧面转动,头部垂直伸展。在MATLAB上开发的图形用户界面允许操作员指导病人做出他需要采集的不同姿势,并在适当的时刻捕捉图像。

该研究也收集了病人的人口统计资料,如年龄、性别、体重、身高和术前麻醉咨询时是否戴假牙。主管麻醉医生对于围术期气道管理的详细信息在另一个专门的数据库中介绍,该数据库包含的信息包括:面罩通气容易情况,用合适大小的喉镜片进行喉镜检查的等级,插管培训年限(至少两年麻醉培训),插管需要的提升力(正常或增加),使用的插管辅助手段,如外部压喉操纵(环状软骨压迫)、插管探条,插管导引装置,或视频喉镜设备,以及与气道管理有关的损伤。记录气管插管操作者数量和插管尝试次数。IDS是常规评估的。这些信息能获得插管困难的基本事实。在2012年3月至2014年3月的两年时间里,该研究记录了2725例患者。其中970人可以得到基本事实(见第三- c1节)。表二显示了本研究中纳入的患者人群的人口统计学资料。

Ⅲ  方 法

该研究对每个患者的一组图像利用面部分析方法从面部和颈部提取有意义的特征。这些特征包括选择的特征点之间的距离,以及头部整体形状或纹理变化的信息。然后,统计这些特征的相关性,以发现哪些特征与预测困难插管相关。最后将最相关的特征提供给分类器。分类器学习如何区分易、中、难插管患者。

A.检测人脸并跟踪人脸关键点

人脸图像分析方法通常包括两个主要部分:首先,需要使用人脸检测器自动确定人脸在图像中的大致位置,然后通过在图像上精确拟合人脸模型来找到每个地标的精确位置。最后,利用单个地标位置及整个脸的外形计算特征。

1)人脸检测:为了初始化人脸模型的拟合,需要确定人脸在图像中的大致位置和尺度。

该研究使用了Yang’s parts-based检测器来检测图像中的人脸。该方法是一种通用的、灵活的部件混合模型,能够捕捉部件之间的前后关联性,拓展了编码空间关系的标准spring模型。已经证明,它在人脸检测上表现得非常好,在无波动的头部姿势上尤其可靠。该方法的良好灵活性使该研究能够为所有的正面图像训练一个专门的检测器,即使病人正在做非常不同的面部动作,如张大嘴巴或伸出舌头。由于正面图像的许多部分在侧面图像中不可见,因此为侧面图像训练了另一个检测器。本研究使用一个手工注释的数据子集来训练这两个检测器。对于正面人脸检测器,训练集包含406张带注释的图像,包括中立位脸、张开嘴和伸出舌头的图像。原始图像和水平翻转的图像都被训练了。对于侧面检测器,训练集包含134个带注释的图像。

正面人脸的检测器表现非常好,在970名病人的2910张图像中,100%检测出所有面部的运动。在一套包括2553张没有用于训练面部检测器的图像也能精确捕捉。另一方面,侧面人脸检测器仅仅没有检测到四个患者的人脸,从最终分析中去除,达到了99.56%的不可见图像的检出率。

利用人脸检测器进行人脸检测,初始化人脸模型的拟合过程。

2)人脸模型的图像对齐问题:在一个新的、盲的图像中找到每个预定义的地标点的精确位置被认为是一个图像的对齐问题。图像对齐是一个过程,包括严格移动模板和非严格变形模板,以最小化它到查询映像的距离。图像对齐过程由三个要素构成:模板表示、距离度量和优化方案。

在本研究中,采用了参考文献中描述的图像对齐方法。该模板是非参数的,由从每个地标周围的斑块中提取的尺度不变的特征转换(SIFT)特征组成。这种非参数形状模型在不可见情况下比其他参数化的外观模型更具有泛化能力,并且这种表示方法能较强的对抗因光照变化给图像带来的影响。在对齐后的图像和模板中计算出来的SIFT特征值之间的差的平方作为距离度量,这导致以下对Δx最小化问题:

x0是平均人脸,Δx是更新形状,d是图像,h是一个非线性特征提取函数(在我们的例子中,是 SIFT特征),和φ= h (d (x))代表了手动标记人脸关键点之间的SIFT特征值。

用supervised descent method(监督下降法)优化方案,在参考文献中进行了详尽的描述,学习了一系列的下降方向和尺度改变因素(在牛顿方法学基础上由the Hessian完成),这样它就会产生一系列的形状更新(xk + 1 = xk +Δxk),在训练集上数据会从x0向x靠拢。x0是人脸检测器提供的地标的初始位置,对应一个平均人脸、比例和平移;x是人脸关键点的精确位置,一般对图像进行人工标注获得。

a)模板的定义:在本研究中,为每个面部动作定义一个模板,以获得做不同面部动作时照片上准确的人脸关键点位置。为了训练这些模型,该研究定义了一个带有99个点的正面中立位的模板,两个不同的带有极端面部动作的99个点的正面模板(一个是张开嘴的,另一个是张开嘴并伸出舌头的),以及一个包含52个点的侧面模板。然后,研究者为每个模板图像手工注释人脸关键点,以训练上面描述的面部模型。

正面中立位对应的模板的人脸关键点包含眉毛、眼睛、鼻子、嘴巴和下巴;它总共有99个点[参见图2(a)]。它还包括颈部的点,以评估颈部特征,如宽度。[图2(b)和(c)]这两个模板对应的是极端面部动作下的图像(张开嘴和伸出舌头),与正面中立位的99点模板具有相同的点。根据图片上的内容,牙齿或嘴唇周围有标记人脸关键点。同样的人脸关键点被用于评估伸舌运动和舌头与口腔的分割情况,对改良Mallampati分级进行自动分级。口腔的分割图如图2(c)中黄色部分所示。[图2(d)]为侧面图像,定义52个点的模板。当进行下颌运动时,下颌和颈部的点可以评估下颌的运动。

b)人脸模型验证:为了验证人脸模型,该研究使用了K-fold交叉验证。对于每个模型,用保存下来的单一折叠的图像来测试模型,而使用所有的其他折叠的图像来训练模型。折叠次数越多,每次试验时使用的训练图像就越多。然后将得到的模型拟合到排除褶皱的标注图像上,并将得到的特征点位置与人工标注人脸关键点位置进行比较。每个折叠都重复这个过程。这样,就可以在每个可用的带注释的图像上测试模型。注意,为了初始化人脸模型,人脸检测器首先在图像上运行。因此,该研究一次测试整个流程。为了量化与训练图像数量相关的误差的演变,本研究使用K-fold交叉验证方案对每个模型进行2倍、3倍、4倍、5倍和10倍的折叠。这相当于50%, 66.6%, 75%, 80%, 和 90%的注释点被用来训练人脸模型。每个正面模型的注释图像总数为150张,侧面模型的注释图像总数为92张。

图3显示在进行训练和测试时进行10倍折叠验证(90%的标注点用来训练),每个人脸关键点在每个模型的误差分布。在测试步骤中,对每个测试图像计算每个人脸关键点与对应标注点之间的误差。然后,将这些误差报告到每个模型的平均人脸上,并用一个高斯函数以更好地显示拟合度。

模型的拟合质量因模型的不同而不同。侧面模型是最不准确的[见图3(d),而且训练的图像较少。此外,从一个训练图像到另一个训练图像的注释可能不太一致,因为注释侧面的难度增加了。从侧面模型上看,下巴和脖子上的点并不对应于图像上的任何人脸关键点;因此,增加了标注难度,同时也降低了人脸跟踪器精确定位这些人脸关键点的能力。

图4显示了三个正面模型的平均点对点误差,该误差由眼睛之间的距离标准化得到。其中,张开嘴和伸出舌头的两种模型的标准化点对点误差比正面中立位模型大。同样,下巴和脖子上的点是比较不准确的(见图3)。应该注意的是,嘴周围的点是相当准确的,这些也是该研究中最有趣的。眼睛周围的点是最精确的,因此是标准化的良好候选点。可以看出,在平均值计算中去除下巴和颈部的人脸关键点,根据模型的不同,可以将点到点的平均误差改善15%到25%。事实上,正如前面所讨论的,这些人脸关键点的自动识别明显不如模型的其他部分准确。在最后的研究过程中,所有可用的带注释的图像都将用于训练。因为有更多的注释图像用于训练,所以模型的实际性能会更好。

B.计算特征

我们感兴趣的大多数解剖学和形态学特征由脸部和颈部的人脸关键点之间的距离组成。对齐的模板给出了这些人脸关键点的位置之后,将面部模型拟合到主题图像上。具体而言,这些距离是上唇与鼻子之间的垂直距离,下唇与下巴尖之间的垂直距离,颈部的宽度,脸部的宽度以及人脸的高度,这五个值都是在正面中立位图像上计算得出的(分别见行1-5,图2 (a)]。TMD,下颌角与颏尖之间的距离,舌骨与颏之间的距离,舌骨与甲状软骨之间的距离,这四个都是在侧面中立位图像上计算出来的[参见图2(d)中的第1-4行]。最后,嘴张开的高度、嘴张开的宽度和嘴张开的面积,这三个值都是从正面张口图像上计算出来的(参见图2(b)中的第1行2和第3面)。此外,还计算了所有正面图像上眼睛之间的距离。用这个距离来标准化上面列出的特征,使研究能够更好地应对因微小的头部姿势变化造成的测量干扰,并能够在患者之间进行比较。事实上,在拍照时所有的病人都没有准确地坐在距离摄像机同一个距离的位置,同样的头部姿势的变化在人脸关键点定量化中引入了一个重要的偏倚。标准化后,所有的距离都除以两眼之间的距离。这个在受试者之间显示出的微小变化很可能与插管困难无关,并且可以从眼睛周围的特征点可靠地计算出来,因为它们非常准确。

除了人脸关键点之间的距离,研究还考虑了形状上PCA系数,以及正面伸舌模型中口腔内部纹理的PCA系数。具体来说,研究按照以下公式计算这些系数。为了计算形状的PCA系数,本研究考虑到人脸图像训练集,每个图像有一组由人脸跟踪器反馈的人脸关键点。在随机定义形状模型的过程中,将一幅图像的人脸关键点集合看作是一次观察。将特征分析应用于观察集,保持98%的能量,得到的模型形状为

其中,s0为平均人脸,si为第i个形状基,p = [p1,p2,…],pn]为形状参数。

这些参数p提供了形状的总体变化信息。它们是按照对应的特征值按递减顺序排列的,或者类似地,按照它们所解释的训练数据的总方差的大小排列的。第一种变异模式解释了更大的总变异量,因此,可能解释了由于头部姿势、性别或其他因素在预测插管困难时不显著的数据差异。另一方面,最后一种方法只解释了一小部分总方差,只对注释中干扰的影响进行了建模。虽然不是所有的系数都与分类相关,但每一个系数都具有编码变异模式的优点,这种变异模式本身会影响多个人脸关键点的相对构型。因此,通过选择几个相关系数,我们可以获得与插管困难相关的人脸关键点的整体构型(或面部的整体形态)的信息。

为了计算纹理上的PCA系数,首先,本研究在每个图像上对口腔进行分割定点[图2(c)黄色轮廓],并在平均人脸上对相同的人脸关键点进行分段,然后在这些人脸关键点之间进行分段仿射变换。然后将这些人脸关键点内的纹理扭曲成平均人脸,并标准化为零均值和1个SD。在训练时,利用训练集中图像的扭曲纹理和标准化纹理计算主成分分析基。与形状上的主成分分析类似,保留了最大有序特征值对应的特征向量,解释了75%的纹理方差,其他特征向量则被丢弃。在测试时,将测试集中图像的扭曲和标准化纹理在此基础上投影,得到一个用作特征的系数向量。使用相同的方法对Mallampati分级进行自动分类。

第III-C3节提供了更多关于特征选择技术的细节,这些技术已经被用来找到相关的系数。

c .分类

1)分类定义:为了对系统进行训练和测试,每个病人都被指定以下一种标签,即与他们插管的困难程度有关的标签:容易、中等或困难,并被认为是插管的基本事实。没有精确定义的困难插管已经一致认可,这种分类是通过结合两个互补的定义,即被广泛接受的困难喉镜检查的定义,C-L分级III或IV为喉镜检查困难和基于Adnet提出的困难插管量表(IDS)的定义,如果IDS大于5,则认为插管是困难的。本研究使用这个更广泛的困难插管的定义,以尽可能地消除只使用喉镜检查来分级的主观性,同时将喉镜等级III和IV分配给困难的类别。更具体地说,分类标签的定义如下

轻度:IDS = 0,这意味着喉镜检查等级为I级,尝试插管一次成功;

中度:0 <IDS <5和喉镜检查等级小于III级;

困难:IDS>5或喉镜检查III级或IV级。

在已记录的2725例患者中,在撰写本文时,允许计算IDS的信息为34.4%,喉镜分级为51.4%。

(a代表根据C-L分级患者的分布情况,b代表根据IDS评分患者的分布情况,c代表插管轻中重度的真实情况,a并不完全对应b)

表III(a)显示了根据喉镜检查患者的分布情况,人群包括所有记录在内的患者以及具有可用的基本事实和进行了面部检测的患者的子集。麻醉医生在插管时观察喉镜视野。值得注意的是,分类基本上是不平衡的,较高的喉镜等级很少被观察到,这使得分类任务更具挑战性。表III(b)为招募患者的IDS评分分类情况。该分类情况也适用于高IDS评分。表三(c)给出了966例患者按上述分类的各个类别的分布情况。轻度、中度和重度的标签被当作基本事实。注意,喉镜检查的等级并不直接对应于IDS评分,因为有8例IDS ≤5分的患者的喉镜分级大于II级,并被标记为“重度”,而另外29例喉镜分级大于II的患者则丢失了IDS评分。

2)为了训练和测试进行数据拆分和类不平衡的问题:特征选择,超参数的选择以及分类器的训练都是在患者子集中进行的:即训练集。然后使用患者的不同子集来测试分类器,并计算评估与其性能有关的不同指标:测试集。将原始数据划分为这两个子集是随机的,但类别的原始分布得以保留(分层划分)。为了计算出正确的统计结果,这些训练集和测试集生成了几次,每次随机划分的患者是不同的。

注意,训练集和测试集都遵循与原始数据集相同的类分布。如前所述,据报道,喉镜检查困难的发生率在0.3%到13%之间。最近,据报道在全部患者中发生插管困难的发生率在4.5%到7.5%之间。在目前的数据集中,6.21%的患者属于困难类别。从机器学习的角度来看,类的偏态分布使概念的学习更加困难。这就是所谓的类不平衡问题。即使是一个相对较小的10:1的不平衡比率,在我们的研究中,也足以阻碍学习过程。

使用抽样方法可以人为地平衡类。但是,这些方法存在一些明显的缺点。多数类别的样本量不足可以降低不平衡率,甚至可以完全补偿类别的不平衡,但是从类别中删除样本可能会导致信息丢失,从而可能会影响分类器的性能。在另一种情况下,少数类的样本量过大也同样降低类的不平衡,但表现出的缺点不同。复制样本往往会导致过拟合。尽管存在更复杂的技术,但有几个问题阻止找到原始的类密度函数的良好近似值,例如,小析取项或类重叠。

在本文中考虑了二元分类器。为了解决类不平衡问题,该研究使用了这样一个事实:对于每个样本,概率分类器都计算属于每个类的置信值。然后,分类器通过最大化给每个样本分配最可能的标签,将样本x分类为j的后验概率。然而,在成本敏感型学习中,把成本矩阵定义为C (i, j),从实际分类j分类到预测分类i分类的误分类成本,即将最小预期损失确定为

其中R为贝叶斯风险,p (j|x)为后验概率。Elkan 表明,修改分类器的阈值(即,如果其置信度值大于阈值但不一定大于其他类别的置信度值,则选择为阳性类)在抽样方面具有与采样相同的效果,但没有上述缺点。因此,为分类器定义阈值θ可以补偿对多数类的偏见。具体而言,在成本敏感型学习中,将分类器相对于给定成本矩阵的最佳阈值θ*定义为

在二分类中,C(1,0)表示假阳性FP, C(0,1)表示假阴性(FN)。阴性样本和阳性样本的先验概率(分别为p(0)和p(1))与原始训练集中的样本数成正比,由于将FN加倍或将FP减半与p(1)加倍具有相同的效果,因此该研究在完整(不平衡)训练集上训练分类器,并在测试集上对其进行测试时,将阈值θ设置为类别之间的不平衡比

其中p(0)/ p(1)大于1,因为带困难标签的阳性类是我们样本较少的类。

由于修改分类器的阈值相当于采样,我们比较了三种选择阈值的方法。

(1)上述类不平衡比率法[参见(5)]。

(2)将ROC曲线上对应点与(0,1)点(左上角)的距离最小化。

(3)将约登指数最大化,即, ROC曲线上对应点与无歧视直线之间的垂直距离。

后两种方法在训练集上使用四倍交叉验证来学习最优阈值。为了不影响在不平衡集上训练分类器的学习过程,使用ROC曲线下的面积作为准则。将FPR与分类器阈值的TPR作图,得到分类器阈值的ROC曲线。不管使用何种分类器,对其进行训练,使由输出置信值生成的ROC曲线最大化AUC,因为AUC对类别不平衡不敏感。作为后处理步骤,计算阈值应用于置信值,以获得每个样本的最终分类。

3)特征选择与分类:对训练集进行特征选择,目标是确定哪些特征与困难插管预测最相关。在完整的特征集合中只有那些最相关的特征用来训练分类器。降低数据维度,去除数据中嘈杂的无关特征,有助于提高分类器性能。

用随机森林分类器对特征重要度进行衡量,它可以进行特征重要度排序和筛选。特征的重要性是通过随机排列出袋样本中的特征并计算在所有变量不变的情况下误分类率相对于出袋率的增长百分比来衡量的。从特征的重要性排序来看,本研究只保留了k个最好的,而抛弃了其余的。将参数k视为超参数,并与分类器超参数同时在训练集上使用网格搜索和k -fold交叉验证找到其最佳值。

对于最终的分类,使用第二个随机森林分类器。随机森林分类器由于他们使用袋,是一个已知的不太会出现明显过度拟合的算法。事实上,随机森林的训练算法旨在构造一个树的森林,其中每棵树在训练集中随机抽样和替换,只考虑每个分裂节点上特征的随机子集来训练树。在训练集上采用四重交叉验证法选择分类器的超参数。具体地说,这些超参数获取要素如下:要保留k个最佳特征的数量(在20-180乘10的范围内),以及在寻找最佳分割时要考虑每个节点的特征百分比(在0.5√N–2√N范围内,其中N是要素总数)。该研究使用熵作为分裂准则,因为它对类不平衡的敏感度低于普通的精度,该研究使用Scikit-learn进行分类器深度学习,它是一个python机器学习算法库。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3