质谱流式实验数据分析

您所在的位置:网站首页 mds降维算法 质谱流式实验数据分析

质谱流式实验数据分析

2023-06-14 14:26| 来源: 网络整理| 查看: 265

质谱流式技术(Mass Cytometry)在药物开发和生物药物表征中的潜力巨大。质谱流式细胞术将质谱技术与流式细胞仪相结合,能够实现对单个细胞的生化成分进行深入研究,帮助我们理解疾病机制,验证药物的效果,发现新的药物靶点以及增强生物制药质量控制。这在生物药物表征中非常有用,它可以帮助解决以下一些问题:

单细胞层次的分子表征:传统的质谱技术通常需要大量的样本以获取可靠的结果,而质谱流式技术则可以分析单个细胞的生化成分,这可以帮助我们更深入地理解细胞的生物学特性。

生物分子的定量分析:质谱流式技术可以对细胞内的生物分子进行定量分析,包括蛋白质、代谢物和其他生物分子。

细胞异质性的研究:细胞群体中的细胞并非完全相同,它们之间的差异可能影响疾病的发展和治疗的效果。质谱流式技术可以帮助我们研究这种细胞异质性。

百泰派克生物科技BTP采用基于Fluidigm Helios流式细胞仪(Mass Cytometry System for Single Cell Analysis)用于单细胞质谱分析,该平台能够完成包括单细胞捕获、cDNA合成、实时定量PCR分析、目标区域扩增以及质谱流式细胞分析。

百泰派克生物科技BTP采用基于Fluidigm Helios流式细胞仪(Mass Cytometry System for Single Cell Analysis)用于单细胞质谱分析,该平台能够完成包括单细胞捕获、cDNA合成、实时定量PCR分析、目标区域扩增以及质谱流式细胞分析。

相较于传统流式,质谱流式的特点在于包含巨大的信息量。质谱流式提供的高维数据能够检查单个样本中大量细胞亚群的特征、研究已知细胞群内的异质性、识别与临床状态相关的细胞群变化、评估靶细胞群与已知参考群体的相似性、确定细胞群生理状态的变化、识别发育途径中的中间状态或分支点。

图1. 质谱流式细胞术与传统流式数据分析比较

1、质谱流式数据导出

使用质谱流式仪器检测的数据,需要进行数据合并、校正、归一化等数据转换操作后方可导出,导出的文件格式为FCS(图2)。

图2. 质谱流式细胞术数据导出

质谱流式原始数据通常以具有不同表达范围的偏态分布为特征。由于可视化和聚类性能取决于规模和分布,使表达峰尽可能接近正态分布非常重要。因此,表达值通常使用反双曲正弦(arcsinh)变换进行变换,辅因子分别通常5。arcsinh 转换的行为类似于高值时的对数变换,但在接近零时近似线性,并且辅助因子控制线性区域的宽度。由于背景噪声、自发荧光和补偿的校正,传统流式数据包含更多的负值;相反,当未检测到离子时,质谱流式数据包含零值,并且由于背景减法和随机化而引入的负值很少。

对于不同时间检测数据的可比性,质谱流式引入了基于beads的归一化。该算法使用市售校准微球(EQ beads),加入并与样品一起采集。因此,可以通过采集时间跟踪信号的变化。在数据处理过程中,识别beads并在所有文件中以定义的时间间隔计算beads的中值强度。根据获得的值,计算每个beads的全局平均值并将其用作目标值。为了获得变换因子,使用全局均值和区间特定强度计算线性模型。然后将该因子应用于所有细胞事件,并插值到相应间隔和文件中的所有标记。

2、质谱流式数据预处理

在传统流式中,通常使用FSC参数高度(H)和面积(A)消除双峰,超出对角线的事件被定义为双峰,因为它们的特征是信号曲线的高度相同但面积不同。在质谱流式数据中,通常使用cytobank或FlowJo对细胞数据进行过滤,其中顺铂用于区分活细胞,Cell-ID intercalator Ir同于区分单个细胞。圈出单个活细胞群进行后续分析(图3)。

图3. 质谱流式细胞术单个活细胞细胞圈门策略

也可以使用例如flowWorkspace包将数据导入R环境中进行自动门控。如果已有某些文件提供了门控策略,则可以使用像flowLearn这样的半监督门控方法来重现其余数据的门控策略,该算法使用提供的门控阈值作为输入,并使用基于导数的密度对齐将它们传输到其余样本。像flowStats,flowDensity或OpenCyto(用于构建自动门控层次结构的框架)这样的软件包对于构建用户定义的门控策略很有用。自动门控的方法更适用于大样本的处理过程。

除了导出单个活细胞数据,也可以对感兴趣的某类细胞亚群进行圈门导出(图4)。

图4. 质谱流式细胞术T细胞圈门策略示例

在圈门前需要确认在数据转换导出过程中是否把EQ beads的数据去除,如果未去除,则在圈单个活细胞前加一步去除beads的操作(图5)。

图5. 质谱流式细胞术去除beads圈门策略示例

导出细胞亚群后,可以对数据进行进一步的降维聚类等分析(表1)。

表1. 质谱流式数据常用的数据分析方法举例

降维方法的目标是将高维数据的结构保留在较低的、更易于解释的二维或三维地图中。这些方法可分为线性工具和非线性工具。由PCA(主成分分析),表示的线性方法侧重于将点的最大方差保持在较低空间中,从而使不同的点彼此远离。另一方面,非线性算法如t-SNE(t-随机邻居嵌入)及其衍生算法,使相似的细胞彼此靠近,专注于保持局部关系。一些工具,如t-SNE和UMAP将众所周知的群体分开,可以很好地概述了现有细胞。其他方法,如Isomap(等距特征映射)或扩散图可视化分化轨迹,因为它们能够保留细胞之间的局部和全局距离。

基于聚类的算法对相似的细胞进行分组,并使用可视化工具在低维空间中表示它们。在选择最佳聚类方法时,应考虑几个要求,例如需要缩减采样、可重复性、稀有细胞检测和运行时间。不同的分析方法具有不同的特点,可根据实验需求自行选择分析方法。2019发表的一篇文章在六个质谱流式细胞术数据集上测试了七种无监督方法(Accense、Xshift、PhenoGraph、FlowSOM、flowMeans、DEPECHE和kmeans)和两种半监督方法(自动细胞类型发现和分类(ADCC)以及线性判别分析 (LDA)),计算所有定义的性能度量,并将其与随机子抽样、不同的样本大小以及每种方法的聚类数进行比较(图5)。

图5. 文章测试的7种质谱流式细胞术数据分析方法

在准确性(precision)上,研究人员将“manual gating”的细胞分群结果看作“ground truth”,利用四种外部评价指标(Accuracy,F-measure, NMI和ARI),对不同方法的分群准确性和效率进行了讨论。讨论发现,LDA是准确性比较高的半监督分群方法,无监督方法中FlowSOM和flowMeans的准确性较高,其次是PhenoGraph和DEPECHE方法。

在一致性(coherence)上,不再考虑“manual gating”的细胞分群结果,而是直接利用三种内部评价指标(DB,CH和XB),对每个方法揭示细胞数据内部本质结构的能力进行了探讨。经过探讨发现,DEPECHE,FlowSOM和PhenoGraph方法能更好地捕捉到CyTOF数据的内部本质结构。

在稳定性(stability)上,根据细胞采样数量的变化,研究人员对不同方法在分群准确性上的鲁棒性和不同方法识别出的细胞亚群数量的鲁棒性进行了深入研究。综合来说,PhenoGraph,DEPECHE和LDA具有相对较高的稳定性,而FlowSOM在分析较大的CyTOF数据时更加鲁棒。此外,这篇文章还研究了分群方法的分群分辨率,发现PhenoGraph和Xshifit能够对特定的细胞亚型细化分类(识别出更细粒度的亚群),而DEPECHE更倾向于忽略细胞亚型之间的差异,将不同的T细胞或B细胞合并到一个细胞亚群(识别粗粒度的亚群)。

总的来说,文章结果表明,LDA最精确地再现了手动标签,但在评估中排名不高。PhenoGraph和FlowSOM在精度,连贯性和稳定性方面优于其他无监督工具。PhenoGraph和Xshift在检测精细的子集群时具有优势,而DEPECHE和FlowSOM倾向于将相似的集群分组到元集群中。PhenoGraph、Xshift和flowMeans的性能受到样本量增加的影响,但随着样本量的增加,FlowSOM相对稳定(图6)。

图6. 7种质谱流式细胞术数据分析方法优缺点汇总

2023年在Nature Communications上发表的一篇文章在对425种质谱流式数据降维方法的性能进行了基准测试。结果表明像SAUCIE,SQuaD-MDS和scvis这样鲜为人知的方法总体上表现最佳。特别是SAUCIE和SCVIS平衡良好,SQuaD-MDS在结构保持方面表现出色,而UMAP具有出色的下游分析性能。t-SNE(以及SQuad-MDS/t-SNE杂交种)具有最佳的局部结构保存。该研究的结果反驳了该领域的普遍想法,即tSNE和UMAP是scRNA-seq数据的最佳表现者,也是CyTOF数据的最佳选择。并且数据降维工具之间存在显着的互补性,方法的选择应取决于底层数据结构和分析需求(图7)。

图7. 质谱流式细胞术降维方法测试基本流程

参考文献:

[1] Marsh-Wakefield FM, Mitchell AJ, Norton SE, Ashhurst TM, Leman JK, Roberts JM, Harte JE, McGuire HM, Kemp RA. Making the most of high-dimensional cytometry data. Immunol Cell Biol. 2021 Aug;99(7):680-696. doi: 10.1111/imcb.12456. Epub 2021 May 4. PMID: 33797774; PMCID: PMC8453896.

[2] Rybakowska P, Alarcón-Riquelme ME, Marañón C. Key steps and methods in the experimental design and data analysis of highly multi-parametric flow and mass cytometry. Comput Struct Biotechnol J. 2020 Mar 31;18:874-886. doi: 10.1016/j.csbj.2020.03.024. PMID: 32322369; PMCID: PMC7163213.

[3] Liu X, Song W, Wong BY, Zhang T, Yu S, Lin GN, Ding X. A comparison framework and guideline of clustering methods for mass cytometry data. Genome Biol. 2019 Dec 23;20(1):297. doi: 10.1186/s13059-019-1917-7. PMID: 31870419; PMCID: PMC6929440.

[4] Wang K, Yang Y, Wu F, Song B, Wang X, Wang T. Comparative analysis of dimension reduction methods for cytometry by time-of-flight data. Nat Commun. 2023 Apr 1;14(1):1836. doi: 10.1038/s41467-023-37478-w. PMID: 37005472; PMCID: PMC10067013.



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3