非靶标技术在新污染物识别中的应用

2024-05-21 21:42| 来源: 网络整理| 查看: 265

数据分析是指对所采集的色谱-质谱数据进行分析处理以实现复杂样品中污染物分子的识别及结构鉴定，是NTA流程中最复杂、耗时最久的步骤. 常规数据处理流程如图1所示，主要为首先从海量HRMS数据中筛选出可能的污染物分子，之后进行结构判断，再评估结果的可靠性.

3.1. 潜在污染物分子的识别

在NTA中，理论上所有可离子化的化合物都能够被检测并在全扫描中产生信号. 从大量信号中发现少数可能的污染物分子无异于大海捞针，尤其是污染物与样品基质相比，往往处于痕量、超痕量水平，因此需要一些手段首先对可能的污染物分子进行筛选. 最基本的筛选是指对样品中真实存在的离子进行筛选，筛选方法包括扣减空白样品信号（如流程空白、基质空白）、设置一定的信噪比（signal to noise ratio, S/N），以及色谱峰的峰形控制（强度、峰宽、对称性等）等. 当存在成对或者多组差异性样品（如工厂上下游的河水样品，污水处理厂的进出水样品）时，可基于这种差异性，使用统计学方法排除大量的基质分子，实现对未知的新污染物的初步识别. 常用统计方法有主成分分析（principal component analysis, PCA）[57]、偏最小二乘法判别分析（partial least squares-discriminant analysis, PLS-DA）[58]以及层次聚类分析（hierarchical cluster analysis, HCA）[59]. 结合PCA和HCA，研究人员对加迪斯湾的周边情况进行了调查，结果表明537种废水污染物能够从源头蔓延到公海[57].

清单筛查是另一种高效的污染物分子筛查方法，基于公开或研究者自己建立的数据库，通过设置离子质量数及合理的误差范围，对获取的HRMS数据进行提取比对，快速筛选出潜在的污染物分子. 常用的开源环境污染物数据库资源有欧洲NORMAN Exchange系统[60]（http://www.norman-network.com/?q=node/236）和美国环保署的CompTox Chemicals Dashboard网站（https://comptox.epa.gov/dashboard/chemical-lists），覆盖污染物种类范围包括农药、PFASs、PPCPs以及一些转化产物等. 研究者也可以从已有的报道、实验室先前的研究结果或前述公开的数据库中收集整理与研究内容相关性更强的污染物或转化产物的相关信息，自行建立污染物清单. Lin等[61]基于ToxCast建立本地数据库，对大气细颗粒物进行筛查，识别出89种化合物. 清单筛查虽然筛选速度快，效率高，但高度依赖已有的研究或报道，对于全新污染物的发现并不适用.

含有特定基团或官能团的同系物，质量数规律可循或在碎裂的过程中可产生共同的特征碎片离子，对于这类污染物可以依据其质量数特征或特征碎片进行识别. 比如存在不同链长同系物的PFASs，可使用Kendrick质量缺陷法则将测得的质量数进行转化后，进行系列同系物分子的发现. 对于分子式相差—CF2—和—CH2CF2的同系物，相应的质量数转化因子分别为49.99681 Da和64.01246 Da. 联合使用该策略以及清单筛查，Wang等[20]在废水中鉴定出37个潜在的PFASs同系物. Peng等[35]通过DIA图谱中Br－碎片的搜寻，在沉积物样品中发现了1593种溴代污染物. 此外，含有一些特殊元素（如Cl、Br等）的化合物由于能够在全扫描中呈现特异性同位素分布而被识别. 通过对t-MS2谱图中的Br－和I－进行搜寻，找到全扫描模式下对应的前体离子，对这些前体离子再一次进行t-MS2扫描，Tao等[26]在自来水中成功鉴定出了64种溴代以及23种碘代消毒副产物（disinfection by products, DBPs）. 在近期的一项研究中，研究人员基于特征碎片及同位素分布特征开发了一种针对碘代全氟和多氟烷基酸（iodinated per- and polyfluoroalkyl acids, I-PFAAs）的数据筛查及识别方法. 首先对在DDA分析中获得的MS2谱图进行搜索，筛选含有特征碎片离子I－（m/z = 126.90502）的潜在I-PFAAs分子，之后根据I－保留时间指示在全扫描中筛选可能的对应母离子，再对疑似母离子进行碳、硫同位素分布特征的双重检验，以排除假阳性[22]. 使用此方法，研究者在有机氟化物工业园区的废水中发现了18种I-PFAAs. 近年来，一些自动化软件的出现使得对潜在的特定类型污染物分子的提取更为便捷，如FluoroMatch能够联合质量亏损、特征碎片等信息从复杂质谱数据中对疑似PFASs离子进行筛查及识别[28]，Haloseeker能够基于同位素特征对Cl、Br取代的污染物进行快速筛选[62].

3.2. 化合物的结构鉴定

初步的化合物分子式推断是进行结构鉴定的第一步，即通过设置分子中可能存在的元素种类及数量，列出可能的分子式组成. 对于软件给出的可能分子式，常常需要进一步加以筛选. 根据仪器精度的不同，实验中获得的m/z信息与理论质量数会在一定质量数范围内存在差异，首先需要针对质量偏差进行过滤. 常规TOF、Orbitrap和FT-ICR的质量偏差范围分别在±0.003‰、±0.002‰、±0.001‰. 此外还可以使用Seven Golden Rules（七项黄金法则）[63]，从元素数量、元素组成合理性、是否符合Lewis和Senior规则、碳氢元素比例、同位素比例、氮氧硫磷与碳元素比例，以及是否存在三甲基硅烷化合物七方面进行候选分子式的筛选. 例如对于呈现M:[M+2] = 3:1的分子离子，大概率有且仅有1个Cl原子.

对污染物进行分子式的最终确认以及结构判断需要依赖MS2信息. 基于MS2的相似性进行数据库图谱匹配是NTA中化合物结构鉴定的主要方法，可用的二级数据库主要有Mass Bank（http://www.massbank.jp/）、NIST（https://webbook.nist.gov/chemistry/）、METLIN（https://metlin.scripps.edu/landing_page.php?pgcontent=mainPage）、MzCloud（https://www.mzcloud.org/）以及PubChem（https://pubchem.ncbi.nlm.nih.gov/）等，覆盖了环境、代谢组学、蛋白组学、法医学以及食品领域相关的化合物，研究者也可以根据分析需求建立本地二级数据库. 对于多种可能匹配的结果，数据处理软件如Compound Discover、enviMass等均可根据碎片及其相对丰度的匹配程度以及全扫描质谱数据中同位素峰的比例等给出评分，评分的高低可作为可能结构的选择依据之一[24, 64]. 但由于实验图谱中往往存在混杂碎片，或一些评分机制本身不完备，在实际数据库对比中，并不一定是高匹配分数的分子最为可信，因而实际操作中不能盲目依赖软件，需同时配合人工检验. 此外，一些数据库也包含了保留时间、保留指数等信息（如NIST），为提高匹配精度增加了额外的评价因素. 数据库对比适用于已有MS2谱图的污染物的发现. 尽管质谱数据库在持续更新，但相比连年来呈指数增长的新化合物的生产及发现，仍然无法满足当前的分析需求.

针对没有匹配的谱图的化合物，目前主要依靠人工解谱，解析效率及准确度高度依赖研究者的知识与经验，可能产生差异性的解析结果. 在PFASs的鉴定中，高度类似的不饱和全氟烷基磺酸盐类在不同研究中分别被解析为双键和环状[20, 39]. 模拟裂解软件如MetFrag、Mass Frontier的出现极大地改善了这种缺陷，可基于实验获得的MS2质谱图，通过计算机模拟碎裂的方式，对母离子和各级子离子的分子结构进行阐释，辅助人工解谱[65-66]. 另一类模拟软件则可以对给定的结构进行模拟裂解，产生模拟MS2谱图，可帮助研究者从多种可能结构中筛选最可能的母离子结构，提高结构鉴定的准确性. CFM-ID（https://cfmid.wishartlab.com/）可以对一组可能的候选结构进行模拟碎裂，并将得到的结果与实际获得的MS2谱图进行对比后给出各候选结构的可能性排名[67-68]. 在一项瑞士地下水的相关研究中，研究人员使用CFM-ID进行化合物的结构注释，所使用的29个标准品中，有23种得到了确认[15]. 保留时间（retention time, RT）或者保留指数，是化学物质鉴定中另一个重要的评价参数[69]. 基于色谱疏水性指数（column hydrophobicity index, CHI）和log D建立起的两个RT预测模型对于强疏水性化合物有较好的预测结果，可用于进行候选母离子的筛选[70]. Aalizadeh等[71]建立了适用于HILIC和RPLC的RT预测模型，在对曲马多等物质进行臭氧氧化的实验中，RT预测结果与实验结果高度一致，表明该模型能够支持异构体的鉴定工作.

作为一种新的结构解析工具，分子网络（molecular networking, MN）的出现为进行高效的未知结构鉴定提供了强大的支持. MN最早应用于生命科学领域[72]，基于实验中产生MS2来创建节点，将所获得的图谱根据相似性进行归类，并与数据库进行匹配. 一般情况下，具有相似结构的化合物产生的碎片光谱也相似，因此这些化合物的节点往往聚集在一起形成类似物簇，只要同属于一簇的任何一个分子与数据库中已有的光谱匹配成功，该簇中大量的分子都能加以注释. Papazian等[54]利用MN对来自马尔代夫的细颗粒物样品进行了分析，结果表明，与来自南印度洋的清洁空气相比，有机氮化物是高污染区域的主要污染物组成. 经过改进后，基于特征的MN（feature-based MN, FBMN）除MS2之外，同时将RT和峰面积考虑在内，在进行结构鉴定的同时兼具了识别同分异构体的能力[73]. Oberleitner等[13]利用FBMN成功在地表水中鉴定出沙坦类物质及其转化产物.

3.3. 鉴定结果的评估

对所鉴定的结构进行最终确认需要依靠标准品，或者在对样品分馏纯化后进行核磁共振波谱（nuclear magnetic resonance, NMR）分析. 除了少数化合物，目前新污染物识别研究中鉴定出的化合物都没有经过最终的结构确认. 具体的NTA研究方法不同，所鉴定出的化合物的结构的准确度也存在差异. 为了反映所鉴定结构的可靠性，Schymanski等[74]提出了针对LC-HRMS分析的化合物结构置信等级（confidence level, CL），该评价系统共分为5个置信等级，从CL1到CL5准确度依次降低（图2）. 其中，CL5仅包含m/z信息，没有更多的关于分子式或结构的信息. 当有额外的加合离子、同位素或离子片段等信息辅助，能够推算出分子式，但MS2不能提供有效的结构判断信息时，置信等级变更为四级. 置信等级为三级时，部分MS2谱图得到了解释，但仍然不能据此提出明确的完整结构（如不确定某个官能团的具体位置）. 二级置信被进一步区分成2a和2b级，分别指的是通过现有的数据库进行谱图匹配，在多个参数（如碰撞能量、RT等）都高度吻合的情况下得到唯一可能结构的情况，以及根据MS2谱图进行人工推断得到唯一可能结构时的情况. 当有标准品提供时，所检测的分子与标准品的色谱质谱行为（如RT，MS、MS2等）表现出高度一致，二级置信中提出的物质结构可被确认，即为一级置信水平.

现在备受关注的PFASs，其特异的同系物特征给出了更多的可供分子识别和结构鉴定的信息，Charbonnet等[75]在Schymanski化合物结构评价体系的基础上提出了针对PFASs的更为细致的置信等级评价方法. 对于经GC-HRMS系统分析及鉴定的化合物，Schymanski体系中的一些评价标准已不再适用，Koelmel等[76]提出了相应的置信评级标准，同样也包括五个等级. 在该体系中，任何可重复检测到的未知碎片都属于CL5，处于这一置信等级的离子仍然具有被注释的可能，但达不到其他任一置信等级的标准. 四级置信度被划分成a、b、c三个等级，根据同位素分布、精确质量数或碎片离子比对后鉴定出的具有唯一化学式的化合物处在4a级；具有重复化学结构，碎裂遵循Kendrick质量缺陷原则或即使在变温条件下仍然具有线性保留指数的系列化合物处在4b级；结构上具有相似性，具有一个或多个精确质量匹配的一组化合物处在4c级. 需要指出的是，从4a到4c并不代表置信等级的降低或者升高. 例如在PFASs分析中，目的是找到多种化合物的系列，此时的评级即为4b级. 此外，对于4b和4c，也可以具有精确的化学式匹配，表示为4ab/4ac级. 除了需要有匹配的保留指数外，三级置信标准与LC-HRMS的二级置信标准基本一致. 二级与三级置信的主要区别在于前者对保留指数匹配度要求更高. 一级置信水平与Schymanski体系类似，但在使用EI源时，可以从一级扫描中获得碎片信息，因此不需要分子离子或二级图谱的信息.

【本文地址】

非靶标技术在新污染物识别中的应用

非靶标技术在新污染物识别中的应用

今日新闻

推荐新闻