机器学习在MALDI

您所在的位置:网站首页 maldi-tof-ms对哪种菌的鉴定不可靠 机器学习在MALDI

机器学习在MALDI

2024-07-09 10:36| 来源: 网络整理| 查看: 265

基质辅助激光解吸/电离飞行时间质谱(matrix-assisted laser desorption/ionization time-of- flight mass spectrometry,MALDI-TOF MS)是一种直接从完整的微生物细胞表面检测蛋白的质谱(mass spectrometry,MS)方法,这种方法不仅可以得到与16S rRNA基因序列分析相似的鉴定结果,还具有速度快、成本低的特点,适用于细菌、古细菌和真菌的快速可靠鉴定[1-2]。大量研究表明,与传统的表型和生化测试相比,MALDI-TOF MS的鉴定结果更为准确[3-4]。但是,对常规的MALDI-TOF MS和16S rRNA基因测序技术来讲,某些特定的分类群,如蜡状芽孢杆菌复合群(Bacillus cereus complex)、洋葱伯克霍尔德复合群(Brukholderia cepacia complex)、阴沟肠杆菌复合群(Enterobacter cloacae complex)、亲缘性高的大肠杆菌(Escherichia coli)与志贺氏菌(Shigella)以及恶臭假单胞菌复合群(Pseudomonas putida complex)的鉴定仍然具有挑战性[5-6]。通过改进算法和开发分析软件可以提高MALDI-TOF MS的分辨率。例如,ClinPro Tools软件已用于大肠杆菌与志贺氏菌的快速分类[5, 7]。此外,尽管MALDI-TOF MS已用于微生物的分型和抗性分类,如肠杆菌科(Enterobacteriaceae)和金黄色葡萄球菌(Staphylococcus aureus)的分型,但得到的结果仍然不能令人满意,鉴定方法的普适性也较弱[8-9]。大量的研究证明,微生物MALDI-TOF MS分类的成功率通常与其所使用的计算机算法直接相关[9]。显然,传统的统计方法已不能满足快速、准确地对大量MALDI-TOF MS数据进行分类的要求,因此在微生物MALDI-TOF MS的分类中需要进一步应用机器学习算法。

目前,机器学习已应用于MALDI-TOF MS的微生物分类。鉴于已有许多研究探讨了微生物MALDI-TOF MS数据的特征提取和特征选择的算法[10-11],本文将以微生物MALDI-TOF MS鉴定中分类算法的应用情况为重点,结合一些常用的预处理算法,拟从以下3个方面进行综述:(1)介绍了机器学习在微生物MALDI-TOF MS分类中的工作流程,并对MALDI-TOF MS数据的特征、MALDI-TOF MS数据库的建设情况、数据的预处理和模型的性能评估进行了重点描述。(2)重点阐述了几种具有代表性的机器学习算法,包括支持向量机(support vector machines,SVM)、随机森林(random forest,RF)、人工神经网络(artificial neural networks,ANN)、遗传算法(genetic algorithm,GA)和朴素贝叶斯算法(naïve bayes algorithm,NB)等;重点探讨了基于集成策略的集成学习(ensemble learning,EL)算法的应用;(3)对小波算法(wavelet algorithm,WA)和GA等典型的预处理算法的应用进行了探讨。

1 基于机器学习的微生物MALDI- TOF MS分类

机器学习是一种多元的分析算法。通过学习训练集中的多元数据的模式,机器学习模型可以对未知的数据作出预测。通常,基于机器学习方法开发微生物MALDI-TOF MS分类模型的过程包括以下4个主要步骤(图 1):(1)数据的收集。微生物MALDI-TOF MS数据集的主要来源为数据库,其次为已发表论文中的共享数据,也可采用研究人员自己得到的实验数据作为模型开发的数据集。(2)数据的预处理。包括原始光谱数据的预处理、特征提取、数据分割和特征选择。(3)模型建立。采用训练集进展模型的训练,采用验证集进行模型的测试。(4)模型的评估。选择交叉验证法、留出法、自助法等模型评估方法对训练的模型进行评估。也可采用外部测试集对模型的性能进行验证。在模型的性能评估中,通常以准确率(accuracy,ACC)和受试者工作特性曲线下的面积(area under the receiver operating characteristic curve,AUC)作为评价指标。

图 1 机器学习在微生物MALDI-TOF MS分类中的工作流程 Figure 1 Workflow of machine learning in microbial MALDI-TOF MS classification. 图选项 1.1 MALDI-TOF MS数据的特征

在MALDI-TOF MS中,样品与基质共结晶,从而产生大量的原始数据。对于一个典型的病原菌来说,MALDI-TOF MS谱图包含质荷比(mass to charge ratio,m/z)、峰高、峰面积、质谱数等数千个测量值,形成10-30个峰,其质量范围通常为2-20 kDa。在MALDI-TOF MS谱图中,分布于X轴的质荷比(取决于样品中检测到的分子质量)和分布于Y轴的强度(intensity values,通常为0-100000,取决于样本中检测到的分子数量)共同构成了微生物的二维分类信息。总体而言,微生物的MALDI-TOF MS产生的数据噪声较高,维度也远大于样本的数量,因此这种复杂而庞大的生物大数据给基于MALDI-TOF MS的微生物分类算法的开发带来了巨大的挑战。

1.2 MALDI-TOF MS数据库

开发基于机器学习的微生物分类预测模型的第一步就是获得高质量的实验数据。数据库是机器学习中微生物MALDI-TOF MS数据集的一个重要来源。目前,MALDI-TOF MS数据库可分为3种类型[10]。第一类为收录物种种类最多的商业数据库,包括Bruker-Biotyper (Bruker Daltonics,Bremen,德国)、Vitek-MS (bioMérieux,Marcy L’Etoile,法国)、Axima Assurance (Shimadzu,Kyoto,日本)和Andromas (Andromas SAS,Paris,法国)等四大数据库[1]。第二类数据库为基于商业数据库扩展微生物参考光谱的内部数据库。这些由用户自己建立的内部数据库,包括疏螺旋体属(Borrelia)、螺菌属(Spirillum)、慢生根瘤菌属(Bradyrhizobium)、钩端螺旋体(Leptospira)、诺卡氏菌(Nocardia)、根瘤菌(Rhizobium)、布鲁氏菌属(Brucella)和马拉色菌属(Malassezia)数据库[1, 12-15]。第三类为由研究人员自己建立的开放性微生物MALDI-TOF MS数据库(表 1)。

表 1. 开放性的微生物MALDI-TOF MS数据库 Table 1. Open access MALDI-TOF MS database Database name Organisms URL References FoodBIMS 26 foodborne pathogens http://bioinformatica.isa.cnr.it/Descr_Bact_Dbase.htm [17] SpectraBank 70 bacterials http://www.usc.es/gl/investigacion/grupos/lhica/spectrabank/Database.html [18] URMS Bartonella http://ifr48.timone.univ-mrs.fr/portail2/index.php?option=com_content&task=view&id=97&Itemid=54 [19] VibrioBase Vibrio https://doi.org/10.1016/j.syapm.2014.10.009 [20] 表选项

总体而言,微生物MALDI-TOF MS数据集的来源仍然是一个大问题。鉴于收录多种微生物MALDI-TOF MS原始数据建立的公共数据库尚未开发,因此,在微生物分类模型的开发中,模型的训练数据可以从上述的数据库中获取,或已发表论文的共享数据中获取,也可采用自己的实验数据作为训练集或验证集[16]。然而,尽管现有的数据库数据量较大,但其商业性质使得研究人员无法自由访问,而开放的数据库又存在收录物种单一、物种数量偏小的缺陷,这也对分类算法的开发造成了限制。已发表的论文也很少共享数据,导致研究人员只能采用本实验室自行检测的有限种类和数量的菌株数据进行算法的开发,因此分类模型的性能还不能令人满意。

1.3 数据的预处理

通常,MALDI-TOF MS的数据可能会存在数据噪声高、数据缺失、分布不均衡及存在异常等诸多数据不规范的问题。因此需要对收集的原始数据进行预处理,并选择有意义的特征进行模型训练。在基于机器学习的微生物MALDI-TOF MS分类算法中,数据的预处理包括四个步骤:(1)原始光谱数据的预处理。原始数据的预处理包括数据的归一化、谱线平滑和基线校正,用于消除光谱中的噪声,消除微生物的个体差异,识别并去除MALDI-TOF MS数据的基本强度值[21]。数据预处理后得到包含m/z和相对强度的峰值列表,该列表为微生物分类模型开发时的标准输入数据[22]。(2)特征提取。通过对齐同类型分离株的m/z值,计算峰值出现的发生概率及信号强度产生代表性的峰值特征列表。(3)数据分割。为了避免分类模型的过拟合,将数据集拆分为训练集和测试集。训练集在进行特征选择后可用于模型的建立,测试集则直接用于模型性能的验证。(4)特征选择。尽管峰值列表可直接作为分类模型的输入数据,但是这些数据中仍然包含会降低分类器准确性的噪音以及不相关或者冗余的峰。因此,在建立分类模型之前,可使用过滤式、包裹式和嵌入式等特征选择方法从代表性的峰值特征中选择最具判别性的特征峰。

1.4 模型性能的评估

在机器学习模型泛化能力进行评估时,性能度量指标是衡量一个模型好坏的关键。一些性能度量指标被用于分类模型的评估。准确率(accuracy,ACC)是最直观的模型性能评估指标,表示预测为阳性与阴性微生物的总体预测准确率。敏感性(sensitivity,SEN)也被称为查全率或召回率(recall),它表示阳性的微生物预测准确率。特异性(specificity,SPE)表示预测为阴性微生物的预测准确率。精确率(precision,PRE)又称为查准率,它表示在所有被分类为阳性的微生物样本中,真正是阳性的比例。敏感性和精确率是一对相对矛盾的度量。在模型评估时,精确率高时,敏感性偏低,而敏感性高时,精确率又偏低。采用F1值(F-Score,即精确率和敏感性的调和均值)可以解决二者的矛盾,当精确率和敏感性接近时,F1值最大。受试者工作特性曲线(receiver operating characteristic curve,ROC)是测试中所有可能的截断点的真阳性率(Y轴-敏感性)对假阳性率(X轴-特异性)的曲线图。AUC是常用的性能度量指标,它代表了模型区分正样本与负样本的整体能力。AUC值越接近1说明模型预测结果越理想,AUC值为0.5代表模型与随机预测相同。

准确率、敏感性、特异性、准确率和F1值的定义分别如下:

公式(1) 公式(2) 公式(3) 公式(4) 公式(5)

其中,TP、TN、FP和FN分别代表真阳性(true positives)、真阴性(true negatives)、假阳性(false positives)和假阴性(false negatives)的数量。

2 分类算法 2.1 典型的机器学习算法

2.1.1 支持向量机(SVM):

SVM通过非线性变换把原空间映射到高维空间,然后在这个高维空间构造线性分类器。在变换后的高维空间中,边界是线性的,但在原始尺度上,它们通常是非线性的,这使得SVM比其他线性分类器具有更高的灵活性。在微生物的分类中,SVM还可以结合其他机器学习算法对数据进行预处理来提高泛化性能,进而提高SVM的分类准确率[11]。由于SVM可以很好地表达小样本高维特征空间,现已成为微生物MALDI-TOF MS分类中常用的机器学习算法。

2014年,Almasoud等[23]分别使用线性SVM和Jaccard kernel SVM对34株(7个种)杆菌属(Bacillus)和短杆菌属(Brevibacillus)分别进行种水平和菌株水平的半定量和定性分类。结果显示,线性SVM和Jaccard kernel SVM在种水平都具有良好的分类性能,准确率分别为89.27%和88.92%,优于贝叶斯分类器(77.69%)。但是这两种SVM在菌株水平的分类性能还很差,准确率仅为45.88%-54.04%。Montaudo等[24]的研究发现,微生物分类的主要影响因素之一是蛋白质含量的定性信息,而非细菌细胞中蛋白质的定量表达水平。2015年,Lafolie等[25]分别用SVM和快速分类器(quick classifier,QC)对产β-内酰胺酶的109株(94株为临床株,15株为环境分离株) ST131大肠杆菌进行了分类。基于8496m/z、9713 m/z、9738m/z和104744 m/z等4个峰标记物,SVM的敏感性为100%,略高于QC法的99.75%。2016年,Mather等[26]开发了一种基于R语言的SVM算法,对抗万古霉素的金黄色葡萄球菌进行分类。结果显示,SVM识别万古霉素中介金黄色葡萄球菌(vancomycin intermediate Staphylococcus aureus,VISA)和万古霉素敏感金黄色葡萄球菌(vancomycin susceptible Staphylococcus aureus,VSSA)分离株的准确率分别为100%和97%,总的分类准确率为98%。在SVM分类模型中添加异质性万古霉素中介金黄色葡萄球菌(heterogeneou vancomycin intermediate Staphylococcus aureus,hVISA)菌株后,SVM模型识别hVISA、VISA和VSSA分离株的敏感性分别降至76%、100%和89%,总的分类准确率降低了9%。但是,在构建SVM模型时,该研究似乎未对数据集进行分割,采用整个数据集进行特征选择和模型的优化,分类模型可能存在过度拟合问题。另外,由于SVM的分类规则通常无法轻易解释,因此Wang等[27]引入径向基核函数(radial basis function,RBF kernel)构建SVM二分类模型,对ST5、ST45、ST59和ST239耐甲氧西林金黄色葡萄球菌(Methicillin resistant Staphylococcus aureus,MRSA)进行序列分型,结果显示RBF kernel SVM的性能优于决策树(decision tree,DT)和K-最近邻法(K-nearest neighbor algorithm,KNN),AUC为0.919-0.991。但是,随着类别数量的增加,基于RBF kernel SVM、DT和KNN算法建立的MRSA多分类模型的准确率显著降低。此外,Wang等[16]还分别使用SVM、DT、KNN和RF等机器学习算法对hVISA和VISA分离株进行分类,结果显示,基于1132 m/z、2855 m/z、3176 m/z和6591 m/z等4个标记峰建立的SVM模型产生了最佳的分类性能,平均敏感性和特异性分别为77%和81.4%。

2.1.2 随机森林(RF):

RF是一个基于树的非参数组合分类器,适用于处理高维和非线性可分离的MALDI-TOF MS数据。2011年,De Bruyne等[28]采用RF和SVM对明串珠菌属(Leuconostoc)和嗜果糖乳酸细菌属(Fructobacillus)的细菌在种水平上进行分类,结果显示RF的准确率为98.4%,高于SVM的94.1%。在对MALDI-TOF MS法难以鉴定的超出MS仪测量范围的MRSA和甲氧西林敏感金黄色葡萄球菌(methicillin susceptible Staphylococcus aureus,MSSA)的分类方面,Dai等[29]采用改良的RF (在预处理步骤对数据集进行装箱和滑动窗口,然后再进行RF模型训练)对345株MSSA和382株MRSA菌株进行分类。结果显示,改良的RF克服了样本量过小的问题,其准确率、敏感性、特异性和精确率均在90%以上,比传统的RF更为可靠和稳定。2018年,Asakura等[30]采用RF对129株VISA、VSSA和hVISA分离株进行分类,模型的敏感性和特异性分别为99%和88%。值得一提的是,由于Asakura等[30]的RF分类器是在自动选择光谱中的峰值组合后建立的,因此模型的敏感性比Mather等[26]采用SVM构建的分类器高23%。基于RF算法,Asakura等[30]还开发了一个“一体化”的在线软件,该软件允许用户使用他们开发的分类器对个人上传的原始数据进行分析。但是,由于该研究仅选择了1个hVISA菌株中的多个菌落进行光谱分析,生成的模型也可能存在过拟合问题。

2.1.3 人工神经网络(ANN):

ANN是由大量处理单元互联组成的非线性、自适应信息处理系统。ANN试图模拟大脑神经网络处理、记忆信息的方式来处理信息。神经网络算法对噪声具有很强的稳健性和容错性,能够逼近复杂的非线性关系。在微生物的MALDI-TOF MS鉴定中,α-溶血性的草绿色链球菌群(viridans group Streptococci,VGS)内的肺炎链球菌(Streptococci pneumoniae)、缓征链球菌(Streptococci mitsi)、口腔链球菌(Streptococci oralis)和假肺炎链球菌(Streptococci pseudopneumoniae)具有高度的亲缘性,经常被错误识别。2013年,Ikryannikova等[31]分别采用GA、ANN和QC算法对62株不同表型和遗传特征的VGS菌株(25株肺炎链球菌、34株缓征链球菌和3株口腔链球菌)进行分类,ANN采用6个峰,在外部验证集中敏感性和特异性均为100%,与其他两个算法的性能无显著差异,可以很好地区分VGS内的肺炎链球菌和缓征链球菌。但是,Lasch等[32]的研究认为ANN还无法对屎肠球菌(Enterococcus faecium)和金黄色葡萄球菌进行分型。尽管在该研究中,ANN的准确率达到了87%,但是在峰值特征选择时,并未发现屎肠球菌和金黄色葡萄球菌的特异性生物标志物峰,使得ANN难以对这两类微生物的克隆和克隆复合体进行分型。Angeletti等[33]分别用GA、ANN和QC对25株连续的非重复的临床分离的耐碳青酶烯类肺炎克雷伯杆菌(Klebsiella pneumoniae)进行分类,ANN采用2个标记峰,对耐碳青酶烯类肺炎克雷伯杆菌的分类敏感性为100%,显著优于其他算法。为了对MRSA进行分型,Camoez等[34]分别用ANN、GA和QC对属于4个克隆群的82株MSRA进行分类,结果显示ANN性能最佳,敏感性和特异性分别为100%和99.11%。2017年,Marí-Almirall等[35]采用ANN、GA和QC对5个抗体组的78株鲍氏不动杆菌(Acinetobacter baumannii)进行分型,其中ANN的敏感性为100%,可以把38株分离株的验证集中的大部分菌株分类到不动杆菌属(Acinetobacter)菌株,其敏感性可达96.8%。

2.1.4 遗传算法(GA):

GA是一种基于群体的元启发式全局优化技术,用于处理超大搜索空间的复杂问题。Boggs等[36]使用GA对47株USA300金黄色葡萄球菌(Staphylococcus aureus)和77株非USA300金黄色葡萄球菌进行分类。结果显示,GA可采用5932m/z、6423 m/z和6592m/z三个标记峰进行USA300金黄色葡萄球菌的分类,对224个测试分离株的验证结果显示,GA的准确率为87.95%,敏感性为87%,特异性为89%。鉴于金黄色葡萄球菌会持续受到宿主和抗生素的压力,USA300家族菌株会不断进化,进而导致模型的准确率降低,因此该模型对于USA300金黄色葡萄球菌分类的适用性还需进一步确认。此外,GA算法还可用于1型和2型的肺炎支原体(Mycoplasma pneumoniae)的分型,GA在外部验证集中的特异性和敏感性均为100%。但是该模型的测试集(25株分离株)和验证集(43株分离株)数据较少,可能存在过拟合的问题[37]。Khot等[5]采用GA对亲缘性高的138株志贺氏菌属(66株)与大肠杆菌(72株)革兰氏阴性菌进行分类时,在种水平上采用11个生物标记峰建模,种水平的敏感性可达90%。Fisher等[38]的研究也证明了GA的混合模型在大肠杆菌和志贺氏菌的分类及其血清分型上均具有良好的性能。总体而言,上述研究大多只用了一半的分离株构建模型,使得分类模型不能涵盖所有受试分离株,进而导致模型性能受到限制。在血清分型上,Nakano等[39]分别采用GA、ANN和QC对574株肺炎链球菌的3、6B、15A、15C、19A、19F、23A、24F、35B和38等10种血清型进行分类,结果显示,在这三种算法中,GA可以更好地识别这10种血清型,平均敏感性在90%以上。

2.1.5 朴素贝叶斯算法(NB):

NB是基于贝叶斯定理的一种简单的概率分类器。NB逻辑简单易于实现,分类过程中时空开销小,对于不同特点数据的分类性能差别不大,具有较强的稳健性。依据微生物蛋白质序列的分型策略,Tomachewski等[40]开发了一种基于核糖体蛋白的质荷比(m/z)进行细菌分类的在线工具——Ribopeaks (http://www.ribopeaks.com),该工具采用NB建立分类模型,可以实现28500种细菌的分类。对环境来源的116株细菌的分类结果显示,Ribopeaks在属水平和种水平上的敏感性分别为90.51%和87.93%[41]。

2.2 基于集成学习(EL)的分类算法

尽管有很多的强分类器(如SVM、KNN和RF)用于微生物的分类。但是,不同的分类器对不同类型的数据分类具有倾向性。分类器的性能取决于多个性能指标,如准确率、敏感性、特异性和AUC等,因此很难确定某个算法对某个特定类型数据的分类是最优的。在此背景下,基于集成策略的分类算法在微生物MALDI-TOF MS分类中得以应用。2007年,Assareh等[42]提出了EL方法,该方法使用不同的机器学习算法作为基分类器,如KNN、SVM、DT和线性判别分析(linear discriminant analysis,LDA)等,并用不同的训练集训练不同的学习算法。该研究使用Bhanot等[43]的SELDI-TOF MS前列腺癌数据集进行EL的性能评价,结果显示EL的性能显著优于基分类器,其敏感性和特异性分别可达92.55%和96.86%。2010年,Datta等[44]提出了一种新的自适应集成分类器,该分类器通过组合装袋(bagging)和排序聚合(rank aggregation)算法,能够根据被分类的数据类型自适应地改变其性能。模型的验证结果显示,EL模型的分类性能优于其他的基分类器和简单的集成分类器。2018年,Ribeiro等[45]利用NB、Logistic回归、DT和RF集成EL分类模型对土壤细菌中的30个属进行分类,结果显示EL的准确率可达88.89%,优于RF的80.61%、Logistic回归的80.29%、NB的68.96%以及DT的60.95%,精确率、敏感性和F1值等其他性能指标也均高于单个机器学习模型。由此可见,基于集成策略的EL大大提升了分类模型的稳定性和预测能力,可以作为微生物MALDI-TOF MS分类的首选算法。

尽管EL的泛化性能比单一的分类器更加优越,但是由于EL融合了多个基分类器,其性能很容易受到弱的基分类器的影响。在建立微生物MALDI-TOF MS EL分类模型后,可通过观察EL模型的AUC值与基分类器数目之间的变化关系,选择具有最大AUC值的模型作为最佳的EL模型。此外,EL还存在训练和预测的计算成本高、模型难以解释等缺陷。在集成之后通过集成修剪可以减小模型的存储开销和计算时间开销。在可解释性方面,通过将集成转化为单模型、从集成中抽符号规则等策略衍生的“二次学习技术”和可视化技术,可改善EL模型的可解释性。

3 预处理算法

微生物MALDI-TOF MS数据的预处理是将原始数据转换为合适的输入,为进一步构建分类模型奠定基础。合适的数据预处理算法不仅可以防止数据结构不兼容导致的机器学习算法无法工作的问题,还可以加快机器学习算法的训练速度,提高算法的精度。目前,机器学习算法已在MALDI-TOF MS数据的预处理中得到应用。基于这些算法,一些开源的数据预处理工具进一步得到开发(表 2)。例如,MALDIquant已成功应用于鉴定鱼类的致病菌黏着杆菌属(Tenacibaculum)[46]、嗜血杆菌(Haemophilus influenzae)的荚膜分型[47]、产志贺毒素大肠杆菌的血清分型[48]。本部分将重点介绍WA和GA在MALDI-TOF MS数据预处理中的应用。

表 2. 开源的MALDI-TOF MS数据预处理工具 Table 2. Open access tools for preprocessing MALDI-TOF MS data Tool name URL References MALDIquant http://strimmerlab.org/software/maldiquant/ [49] Mass-Up http://sing.ei.uvigo.es/mass-up [50] SPECLUST http://bioinfo.thep.lu.se/speclust.html [18] BIOSPEAN http://biochemie.upol.cz/index.php/cs/vyzkum/odkazy [51] MALDIrppa https://CRAN.R-project.org/package=MALDIrppa [52] HABase https://uhcl-habase.shinyapps.io/habase_web-based_spectra_analysis/ [53] 表选项 3.1 小波算法(WA)

WA可以用于MS数据的去噪和特征选择[54]。在MALDI-TOF MS数据中,噪声信号通常来自仪器的干扰、测量和基线失真。WA不但可以处理化学噪声和仪器噪声,还可以很好地处理非均匀噪声。在特征选择方面,与传统的主成分分析(principal component analysis,PCA)和LDA方法相比,WA更能够保持时间特性,且通过检测局部特征,大大减少了MALDI-TOF MS数据的计算量。为了解决MS光谱中噪声导致的高误报率问题,Du等[55]采用基于连续小波变化的峰值检测算法(continuous wavelet transform,CWT)直接对原始的MALDI-TOF MS数据去噪,该算法将光谱变换到小波空间,简化了模式匹配问题,可以从峰值噪声和有色噪声中更好地识别和分离信号。与Bioconductor PROcess包中的峰值检测算法和Coombes等采用的峰值去噪算法相比,CWT的敏感性更高而误报率更低[56]。但是,计算成本较高是CWT算法需要解决的问题。2015年,Murugesan等[57]采用对偶树复小波变换(dual tree complex wavelet transform,DTCWT)进行MS原始数据的去噪,结果显示,与离散小波变换(discrete wavelet transformation,DWT)和平稳小波变换(stationary wavelet transform,SWT)相比,DTCWT的性能更佳,计算载荷更低。2016年,Zheng等[58]将CWT与疯狂爬坡算法(crazy climbing algorithm,CCA)结合对CWT进行了改良。对模拟噪声光谱和真实光谱的评估显示,改良后的方法在识别重叠峰方面效果更好。2017年,Gutiérrez等[59]采用CWT对来自葡萄园和酒厂109个酿酒酵母菌株(Saccharomyces cerevisiae)和107个非酵母菌分离株的MALDI-TOF MS数据进行预处理。结果显示,结合MALDI-TOF MS数据采集算法,CWT可以产生高质量的数据集,属水平的准确率为95.4% (206/216),种水平的准确率为100% (216/216),高于Ge等的77.8% (63/81)和93.8% (76/81)[60]。尽管如此,该研究尚不能实现酵母菌菌株水平的分类。

3.2 遗传算法(GA)

考虑到MALDI-TOF MS数据具有的高维度和小样本量特征[61],常用GA对MALDI-TOF MS数据进行特征选择。1997年,Broadhurst等[62]将GA用作热解MS的特征选择算法。GA可以用于寻找多元线性回归(multiple linear regression,MLR)和偏最小二乘法(partial least squares,PLS)回归等模型中回归变量的最优子集,从而将变量从150降至20以下。2011年,为了实现芽孢杆菌(Bacillus)的鉴定和种水平分类,Correa等[63]将GA与贝叶斯网络算法(bayesian network,BN)相结合,依据数据子集的不同,将变量从150个降低到22-39个。此外,GA-BN在芽孢的生物标记物挖掘方面也具有优越的性能。2017年,Bai等[64]提出了一种基于wrapper的改良GA对MRSA和MSSA的MS进行特征选择,在采用SVM进行分类后,改良的GA算法明显优于传统方法,平均准确率为72%,平均敏感性为71% (比传统算法高1.6%)。

4 展望

MALDI-TOF MS是一种功能强大、经济有效、快速且稳健的微生物分类技术,现已成功应用于细菌、真菌和古生菌的分类鉴定。为了进一步区分亲缘关系较近和难以分型的微生物,划分和扩展数据库变得越来越重要。然而,现有的微生物MALDI-TOF MS数据库的数量和大小还不能满足微生物的分类需求,而缺乏提高MALDI-TOF MS分辨率的有效算法更是当前该技术面临的一大挑战。在此背景下,本文研究了典型的机器学习分类算法、集成学习分类算法和数据预处理算法在微生物MALDI-TOF MS分类中的应用情况。从目前的应用状况来看,简单而基本的机器学习算法很难满足微生物MALDI-TOF MS分类的需求。随着机器学习算法研究的不断深入,组合不同的机器学习算法和基于集成策略的EL显示出优越的分类性能,有效提高了基于微生物MALDI-TOF MS鉴定的分辨率。在MALDI-TOF MS数据的预处理中,特征峰的确定主要取决于特征选择算法和机器学习算法。WA和GA常用于去噪、特征选择和特征提取,通过组合其他机器学习分类算法可以进一步提高MALDI-TOF MS在微生物分类中的分辨率[57, 64]。此外,卷积神经网络已经用于MS峰值的检测和基线校正,这表明未来深度学习算法可用于微生物MALDI-TOF MS分类任务[65]。总而言之,MALDI-TOF MS的数据集庞大而复杂,未来还需在加大微生物MALDI-TOF MS数据库建设的基础上,将分类算法的选择、不同机器学习算法的组合和预处理算法的改进作为研究的重点。

此外,在采用机器学习算法对微生物MALDI-TOF MS进行分类的实际工作中,数据预处理是影响分类准确性一个主要原因,采用统计容差法计算光谱数据的容差值进行峰值对齐更有助于增加模型的鲁棒性[66]。在混合微生物的分类中,采用基于核糖体蛋白的生物标记物作为输入特征是一种优选的策略。另外,对于微生物分类算法的开发,基于蛋白质序列数据库比对的策略也是一个良好的选择。该策略采用微生物基因组预测的蛋白质分子量来匹配微生物产生的MALDI-TOF MS的质荷比,不仅可以提高微生物MALDI-TOF MS的分辨率,还可解决算法开发时MALDI-TOF MS数据缺乏的问题。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3