综述

您所在的位置:网站首页 信息数据整合方式物化式整合 综述

综述

2023-11-01 09:20| 来源: 网络整理| 查看: 265

集成多组学数据的机器学习在生物学和医学中的应用:原则、实践与机会

最近几天在搞一篇拖了好久的综述(和华科同济医院合作),机器学习在卵巢癌诊断和预后中的应用,当时分析完文献后发现大部分的文章都是高通量组学的(转录组、代谢组、微生物组等等),因为我本人是搞图像出身的,所以一脸懵逼。正好我的研究生导师希望我未来能够承担一项单细胞测序分析的课题,于是送我去了华大基因青岛研究院学习单细胞转录组测序,顺便在那边把其他几个组学的知识搞清楚了。今天分享的是一篇斯坦福大学生物医学物理系和计算机系合作于2019年发表在Information Fusion(IF = 10.716)的综述,“集成多组学数据的机器学习在生物学和医学中的应用:原则、实践与机会”。重点已经用加粗字体标注出来了,一起看看大牛的综述吧!

集成多组学数据的机器学习在生物学和医学中的应用:原则、实践与机会

摘要:新技术使人们能够以前所未有的规模和多个维度研究生物学和人类健康。 这些维度包括描述基因组,表观基因组,转录组,微生物组,表型和生活方式的众多属性。 但是,没有任何一种数据类型可以捕获与了解某种现象(例如疾病)相关的所有因素的复杂性。 因此,结合了多种技术的数据的集成方法已成为重要的统计和计算方法。 开发此类方法的主要挑战是确定有效模型以提供全面且相关的系统视图。 理想的方法可以通过利用跨生物学变异多个维度的异构数据来回答生物学或医学问题,识别重要特征并预测结果。 在这篇综述中,我们描述了数据集成的原理,并讨论了当前的方法和可用的实现。 我们提供了生物学和医学领域成功进行数据集成的示例。 最后,我们讨论了生物医学整合方法中的当前挑战以及我们对该领域未来发展的看法。

1 引言

了解复杂的生物系统一直是许多研究人员的不懈追求。 高通量测序成本的迅速下降,大规模并行技术的发展以及新的传感器技术,使得能够生成描述多维生物系统的数据。 这些维度包括DNA序列[1],表观基因组状态[2],单细胞基因表达活性[3],蛋白质组学[4],功能和表型测量[5]以及生态和生活方式特性[6]。 在过去的十年中,数据生成技术的进步推动了生物信息学领域的发展,随着研究人员开发数据分析工具,生成的数据量不断增加。 这些数据通常与特定的分析手段相联系,现有的分析方法旨在专门分析一种数据类型。使用这些方法,我们解决了一些生物难题。然而,理解一种疾病的某种现象仅使用一种数据类型是远远不够的。因此,生物学和医学的许多复杂性仍然无法解释。 如果该领域严格依赖于单一数据类型研究,则永远不会解释。 理想情况下,可以结合不同类型的数据来创建细胞,人类健康和疾病的整体图。 研究人员开发了多种方法来完成此任务,因此解决了庞大且异构的生物医学数据所带来的挑战。例如,可以通过基于家庭和人口的数据的关联研究来识别DNA序列变异,然后将其与分子途径信息整合在一起,以预测患上特定疾病的风险[7]。数据集成可能具有多种含义,在本文中定义为,将广义上不同类型的生物医学数据组合为预测变量的过程,从而可以对生物医学相关结果进行更彻底,更全面的建模。正如早先的研究[8-10],多组学的集成比一种数据类型的分析更彻底、更富有信息。组合多种数据类型可以补偿任何单一数据类型中丢失或不可靠的信息,并且指向同一结果的多种证据来源不太可能导致假阳性。 仅当考虑到从基因组和转录组到生物环境的不同维度的信息时,才可能发现像人体这样的系统的完整模型。 在这篇综述中,我们描述了数据集成的原理,并提供了目前用于集成生物医学数据的机器学习方法的分类。 我们讨论了当前方法的实现及在生物学和医学中的成功应用。 此外,我们讨论了优化和解释多组学数据组合的挑战以及集成多种数据类型的优点。 例如,一种技术可以解决另一种技术的缺点,以提供对人类疾病的更精确的洞察力。 此外,我们提供了有关将来集成数据分析如何发展的观点。

图1.数据整合在生物医学中的重要性。 仅考虑单一数据类型的变化可能会错过许多重要的模式,这些模式只有通过考虑生物医学数据的多个级别才能观察到。 显示的是使用疾病诊断作为关注点的假设示例。 当新患者到达诊所时,(a)领域专家对患者的基因组进行测序,并将其与数据库进行比较,以识别突变和致病基因,(b)使用组织样本进行实验室测试,以及(c)处理有关 患者的行为和生活方式。 (d)将患者的基因组,转录组和生活方式信息与精选的生物医学知识(例如疾病和代谢途径)数据库相结合。 最后,机器学习算法可以预测患者在不久的将来患上特定疾病的可能性。 为了做出准确的预测,机器学习模型需要使用许多不同类型的数据。 此示例说明,只有通过分析多种类型的患者数据才能做出准确的预测

2 生物学和医学数据集成面临的挑战

当人们开发机器学习方法以整合生物医学数据时,就会出现一些挑战。 生物和医学数据集的固有复杂性超出了其规模。 生物医学数据集也是高维,不完整,有偏见,异构,动态和嘈杂的。 我们在下面简要描述这些挑战: (1)生物医学数据通常是高维且稀疏的。 这与其他领域中的大型数据集(例如社交网络,计算机视觉和自然语言)形成对比,后者通常包含大量高质量的示例。 一个典型的全基因组关联研究(GWAS)[11]基因型为每个个体提供了成千上万的单核苷酸多态性。 但是,这些数据通常只能针对相对少数的具有特定表型的个体进行收集。 此外,这些数据的稀疏性质,即每个多态性仅存在于少数个体中,这对下游分析应用提出了额外的挑战。将这些数据转换为具有生物学和临床意义的见解仍然是一项重大挑战。 如果不整合其他类型的数据,例如途径或分子网络信息[12-14],仅GWAS数据就很难确定与目标表型相关的有意义的模式。 (2)另一个重要的挑战来自生物医学数据通常不完整和有偏差的性质。 这一挑战源于测量技术的局限性[15],自然和物理约束[11,16]以及调查偏见[17]。 例如,即使考虑跨器官等离子的信息,也仅对几千个基因提供有关哪些化学物质与哪些基因结合的信息[18]。 此外,每个基因的相关化合物数量高度不均[19],许多未表征的基因在药物作用中起重要作用[20]。 此外,生物医学数据是按层次结构组织的,涵盖了分子,途径,细胞,组织,器官,患者和人群[21-23],并且涵盖了广泛的时间尺度和物种。 显然,对生物学的全面理解需要多尺度建模,从描述分子的原子细节到有机种群的新兴特性。 此外,当生物医学数据随时间变化时,结合数据的机器学习方法需要考虑这些动态因素(个人理解是说不能在建立模型时仅考虑生物医学数据的某个时间横断面,要考虑数据在整个治疗或者疾病过程中的动态变化,和下文的垂直数据集成相关)。 例如,癌细胞,细菌和病毒迅速进化以获得耐药性[24],而忽视药物反应的动态可能导致预测药物功效和毒性的性能下降。 (3)生物医学数据科学中的一个基本挑战在于在现有知识领域之外发现新知识,例如,将动物模型中的药物反应外推到人类患者中。 现有方法通常假定在其上训练了算法的数据集代表了可以对其应用算法的所有数据。 然而,建立模型来预测例如抗癌药在给定患者中的功效是具有挑战性的,因为新患者可能是独特的并且可能不在训练后的模型的假设空间之内。 由于生物医学数据集不完整,仅反映了迄今为止发现的科学知识,模型只能在这些不完整的数据集上训练模型,因此当有新的没有出现在模型假设空间内的新样本被测试时,其性能可能会很差。基于上述原因,部署机器学习系统,以支持风险敏感发现和临床实践中的决策仍然是具有挑战性的任务。 总之,由于生物医学系统的复杂和相互关联的性质,在任何单个数据集上训练的任何单个模型都只能触及整个生物医学知识的一小部分。 是这个 我们必须整合不同的信息来源,以获得对生物学和医学的全面理解。

图2.数据集成方法的分类。 (a)有关患者的多组学数据的示例。 (b–d)数据集成方法可以分为三类。 (b)早期整合方法涉及在分析和预测之前,在原始或已处理级别上合并来自不同数据类型的数据集。 (c)中间整合方法在估计模型参数的同时,转换或映射基础数据集。 (d)后期整合方法独立地对每个数据集执行分析,然后整合所得模型以生成预测,例如特定患者的预后。 SNP,单核苷酸多态性。

3 数据集成方法的概念组织 3.1 根据数据分类

(1)垂直数据集成:同一种组学类型,跨越空间和时间尺度组合模型和数据集的方法,指在多个时间尺度上对细胞,细胞类型,组织,生物和种群模型的集成[23,26,27]。 (2)水平数据集成:侧重于在一个特定级别[28,29],例如在微生物组[30]或表观基因组级别[2]上组合数据集和模型。

3.2 根据算法分类

根据集成的方法,分为以下三种不同的数据集成方法[8,31–33](图2): (1)早期集成(多组学单模型)(图2b):首先将所有数据集转换为基于特征的表或基于图形的表示形式,在分析和预测之前,在原始或降维处理级别将来自不同数据类型的数据集组合起来,然后输入机器学习模型中分析和预测。 从理论上讲,这种方法功能强大,因为只要在分析之前单个数据集没有崩溃,机器学习方法就可以考虑特征之间的任何类型的依存关系。 早期的集成方法通常依赖于自动特征学习的方法,例如降维[34]和表示学习[35,36],将原始的高维数据集投影到低维向量空间中,然后将它们组合在一起,通过级联或其他简单聚合技术进行的低维表示。 (2)后期集成(多组学多模型)(图2d),将分别为每个数据集或数据类型建立一个第一级模型。 然后,通过训练使用第一级模型的预测作为特征的第二级模型或通过获得多数表决或合并第一级模型的预测权重的元预测器[37]来组合这些第一级模型 [38,39]。 (3)中间集成(图2c),例如多核学习[40,41],集体矩阵分解[33,42,43]或深度神经网络[44,45]可以学习许多数据集的联合表征。中间集成依赖于显式解决数据集多样性并通过联合模型推断将其融合的算法。重要的是,中间数据集成方法既不合并输入数据,也不为每个数据集开发单独的模型。 相反,它旨在保留数据结构并仅在分析阶段合并它们。 中间集成方法可以带来卓越的性能,但是它通常需要开发一种新算法,并且不能与现成的软件工具一起使用。 最后,数据集成方法可以生成各种类型的预测输出,类似于分析单个数据集的方法(图3)。 特别值得关注的一个领域是对生物医学实体(例如基因)的定量或分类性质(label,例如基因功能)的预测。 例如,许多研究整合了大量网络数据,包括蛋白质-蛋白质和遗传相互作用网络,以预测导致特定表型或特定功能的基因[46,47](8.1节)。 除了预测个体实体的标签之外,许多研究还旨在预测关系,即生物医学实体之间的分子相互作用,功能关联或因果关系。例如,多核学习方法可以结合从多种数据(例如药物的结构相似性,药物的表型相似性和靶标相似性)得出的内核,以预测药物与可能是药物靶点的蛋白质之间的新关系,即药物—靶点相互作用(9.1节)。最后,存在数据集成方法来识别复杂的结构,例如在组合的基因相互作用网络中检测到的基因模块或簇[49](第8.2节),并生成结构化的输出,例如从混合数据分布推断出的基因调控网络 [50]。

图3.数据集成. 数据集成方法以统计上有意义的方式组合了多种信息源,以提供对生物医学数据的综合分析。 广泛地讲,现有方法使用三种不同的策略(即早期,中期和后期整合;另请参见图2),并提供三种类型的预测输出(即表示实体属于给定类别的概率的标签; 表示两个实体之间关联的概率的关系;以及复杂的结构,例如推断网络或将实体划分为组)。

4 本文的重点

这篇综述面向那些对机器学习在生物学和医学领域的最新发展和应用以及在当今产生大量异构数据的情况下其在推进生物医学方面的发展潜力感兴趣的计算机研究人员。在本综述中,我们重点介绍用于数据集成的统计方法和机器学习方法。 我们描述了整合方法的原理,并概述了用于解决各种生物医学问题的一些方法,实施这些分析的可用工具以及整合方法的各种优点和缺点。 此外,我们重点介绍了使用新的机器学习方法进行探索所面临的挑战和机遇,并就整合方法在未来的发展方式提供了看法。 一些现有的综述已从不同的视角介绍了生物医学数据集成,或者特别关注了特定的生物医学问题。例如,Rider等人 [51]专注于网络推理的方法,并特别关注概率方法。Bebek等人 [52]和Cowen等人 [49]专注于从多个生物数据集构建和统计分析生物网络的方法,以及可视化工具。相关综述[8, 53-55]已研究了在转化医学中高通量组学技术和基于数据集成的方法的进展,并列出了供领域相关科学家使用的工具的列表。Karczewski等[9]描述了数据整合的应用,集成方法结合了各种类型的数据以理解,诊断和寻找疾病的治疗方法。 他们讨论了在临床和个性化医学中实施整合方法的技术挑战。Teschendorff等人[10]综述了基于生物测序数据建立的预测算法,并重点关注了基因测序数据的统计分析分析。 在这篇综述中,我们分析了多种生物医学水平的数据集成的进展。 本文的逻辑结构按照遗传信息的表达顺序组织,首先介绍基因组水平,其次是转录组水平,最后是表观遗传水平。这些水平之内和之间存在异构数据。 我们从DNA序列水平开始,描述甲基化模式和其他表观遗传标记(Sections 5 and 6),从单个细胞水平的基因表达(Sections 7),蛋白质变异和细胞表型(Sections 8)着手,达到患者群体水平(Sections 9 and 10)。 最后,我们讨论了组合各种数据的潜力以及整合方法在人类健康和疾病中的核心作用(Sections 11)。

5 表观基因组变异与基因调控

尽管多细胞生物中的单个细胞通常具有几乎相同的DNA序列,仍会形成不同的细胞类型。这些不同的细胞类型表现为不同的物理形态学变化并具有不同的行为模式,其根源是代表了不同的基因表达程序。 不同的基因表达程序还会在特定位置对DNA和与其相互作用的数千个生物分子进行物理和化学变化。 其中包括对DNA碱基的化学修饰[56-58],以及将DNA包装成核小体结构的组蛋白的化学修饰[59,60]。 收集DNA、其包装和相关的生物分子被称为染色质。 十位生物学家将染色质的物理和化学变化状态称为细胞的表观基因组[61](表1),并沿基因组逐个基础地测量其特性。 研究人员使用称为测定法的调查性实验来确定基因组中每个区域的表观基因组特性(表2)。例如,DNA包裹的组蛋白会经历称为组蛋白修饰的各种化学变化[59]。染色质免疫沉淀-测序(ChIP-seq)[69-72]法可以绘制组蛋白修饰图,一次一张。另一个例子,核小体通常一致地定位在特定的DNA区域,特别是特定的细胞类型。 无核小体区域或开放染色质在控制基因调控中起着至关重要的作用。 多种技术映射核小体和开放染色质,包括脱氧核糖核酸测序 (DNase-seq)[74]和检测转座酶可访问染色质(ATAC-seq)[62]。 表观基因组测序分析通常将基因组DNA分解成约200个碱基对(bp)长度的片段。 这种片段化使染色质中某些令人感兴趣的表观基因组特性富集起来,例如特定的组蛋白修饰。 这些分析的目的是通过测序片段池中的富集,寻求感兴趣的性质。在其他类型的基因组测序实验中,我们可能会发现产生的测序读物中的遗传变异很有趣。 相反,在表观基因组测序测定中,我们通常主要感兴趣的是这些读数在参考基因组中的定位以及频率。 对于基因组中的每个位置,我们都可以计算映射到该位置的读数的数目,并将其视为所分析的表观基因组特性的强度或频率的信号。 因此,我们可以将实验结果视为整个基因组的数值载体。 通常,我们还包括其他归一化步骤,以说明实验参数的差异,例如除以映射读取的总数。 这会将初始整数计数转换为实值向量。 对于全分辨率的人类基因组,该载体将具有30亿个成分。 由于表观基因组数据可能仅与所关注的生物学现象间接相关,因此机器学习吸引了人们对解释的兴趣[78]。 研究人员已经设计了许多方法来从表观基因组数据得出有关基因表达控制及其对表型的影响的结论[79,80]。 在本节中,我们调查了表观基因组数据分析中的几个问题以及解决这些问题的一些方法。

5.1 半自动基因组注释

为了完整了解基因组各部分的表观基因组状态,研究人员必须结合多种测定的结果。 大型财团已经产生了检查表观基因组状态许多方面的数据集[2、82、28],并且可以将这些方面组合成一个数据矩阵。 可以将这个数据矩阵划分为行向量,每个分析一个。 或者,可以将矩阵分成列载体,每个列载体用于基因组中的每个位置。 无论哪种方式,原始信号数据都很难单独解释和探索。 半自动基因组注释(SAGA)方法[29]通过表观基因组特性方面的相似性将基因组区域聚集在一起,从而在此过程中提供了帮助。 可以根据识别数据矩阵中相似列向量的群集来描述任务。 但是,我们不能假设列向量之间是独立的。 实际上,每个列向量中的数据高度依赖于其邻居。 因此,SAGA方法还可以同时分割基因组,从而动态且异质地定义区域的宽度。 该过程导致基因组的划分,称为分段,每个区域分配给不同的簇,通常称为标记[83]或染色质状态[84]。 我们几乎可以完全自动化SAGA方法的同时分段和聚类。 “半自动化基因组注释”中的“半”是指由人类专家对所得簇进行的解释。专家检查每个簇的各个部分和集合特征,并根据假定的生物学作用描述捕获的模式。 所确定的角色可能包括基因的开始,基因的末端和增强子(一种驱动明显距离的基因表达的基因组元件),以及许多其他基因。 所有这些都有特征性的基因组模式,SAGA方法有助于特征化这种模式的新实例[85]。 研究人员已经使用这些方法来注释许多基因组,包括人类[83,84,86,87],小鼠[88]和果蝇[89],使研究人员能够快速将功能分配给基因组区域。 诸如HMMSeg [86],ChromHMM [84],Seg way [83],EpiCSeg [90]和IDEAS [87]之类的方法提供了一种无监督的学习方法来查找具有相似特征的区域。 这些方法中的大多数采用图形化模型在整个基因组区域的表观基因组数据中找到相似之处。 这些模型将观测到的数据视为由具有定义参数的某些理论状态发出,以反映该区域的功能。 第一个SAGA方法HMMSeg [86]收集输入表观基因组测定,使用小波对数据进行平滑处理,并使用隐藏的马尔可夫模型[91、92、93、94、95、96],其中隐藏状态表示簇成员 船。 ChromHMM [84]使用隐马尔可夫模型,该模型将输入信号作为随机伯努利变量的向量。 伯努利向量化基于每个区域的信号是否超过基于泊松背景分布的有效阈值,将每个区域的输入数据二进制化为离散的“开启”或“关闭”类别。EpiCSig [90]使用类似的方法,尽管它采用原始排序计数并将其建模为负二项式分布的排放量。相反,Segway [83]使用单分量或多分量高斯模型对实值信号数据进行建模[97]。 Segway生成器使用动态贝叶斯网络[98]来对隐藏的马尔可夫模型进行分析,该模型可以对段长度施加硬约束。Segway还可以执行半监督学习,并且可以在完全监督的管道中充分利用它[99]。 最后,IDEAS [87]一次迭代地分割多种输入细胞类型的基因组,并使用无限状态隐马尔可夫模型对跨细胞类型的相似区域进行分类。

5.2 转录因子结合位点预测

(这部分不是很感兴趣,以后有机会再翻译)

5.3 拓扑相关的域预测

(这部分不是很感兴趣,以后有机会再翻译)

5.4 组蛋白修饰和DNA甲基化预测

组蛋白修饰预测还受益于ChIP-seq的计算替代方案。 Epigram [125]识别跨细胞类型的序列基序,强烈提示组蛋白修饰。 Epigram然后采用随机森林分类器来预测这些基序的组蛋白修饰和DNA甲基化。 ChromImpute [126]从一组常用的表观基因组测定方法的核心预测了其他表观基因组测定方法的信号。 为此,ChromImpute在存在感兴趣的数据类型的样本上训练回归树。 通过对这些先前实验的结果进行平均,ChromImpute可以从未进行的实验中推断出信号。 PREDICTD [127]推测了缺失的组蛋白修饰和甲基化信号以及大的因素分解。

6 非编码变异效应

研究人员和医学专业人士通常想知道DNA改变对细胞和器官器官表型的影响。 尽管解释蛋白质序列编码变化的影响相对容易,但解释构成复杂基因组或非基因组基因组大部分的非编码序列却被证明更具挑战性。 许多非编码序列变异与特定的表型性状或遗传疾病有关[128]。 通过表观基因组和基因表达变化介导的十种非编码变化引起表型效应[129]。 我们希望将良性非编码变量与有害变量区别开来。 有害的非编码效应通常发生在控制基因调控的特定区域,称为调控区域。 调控区域包括增强子[130]和基因起始区域[131]。 某些方法旨在仅基于序列来识别调控区和严重的非编码变化。 例如,gkm-SVM [132,133]找到指示增强子活性的短序列(k-mers)。 然后,它使用支持向量机(SVM)在随机序列背景下找到训练集中的丰富k-mer。 它还允许这些k聚体在序列中具有任意数量的断裂或缺口。 训练数据集通常由给定转录因子的结合位点组成。 该SVM的内核计算两个序列之间的相似性得分,这些序列表示为包含缺口的短序列。 DeepSEA [134]在基因组序列上训练深层卷积神经网络,以预测表观基因组状态。 它可以预测转录因子结合和组蛋白修饰状态。 DeepSEA通过比较未修饰序列和修饰序列的预测来检验序列变化的影响。 Basset[135]单独从序列中学习染色质可达性,使用序列上的深卷积神经网络来获得DNase-seq信号的概率预测。 我们还可以通过结合基因组保守性数据来确定突变的有害性。 保守性衡量的是在进化过程中序列几乎没有变化。 几乎可以肯定的是,在进化过程中,保守区已经发生了突变,但是那些降低器官适应性的突变将大大减少当今的流行率。 因此,我们假设在物种间或同一物种的种群之间保持保守的序列表明,突变将造成高度有害,致病或致死。 有几种方法使用保守性来识别有害突变。 组合注释依赖型耗损(CADD)使用线性核支持向量机[136]集成了63个功能,包括从保守性和表观基因组数据中提取的注释。为了标记SVM的训练数据,CADD的作者区分了自人类-黑猩猩的共同祖先以来发生变化的常见序列变体和枯竭的模拟变体。 相比之下,本征则采用了一种无监督的方法,该方法使用了来自各种突变数据库的保守评分,蛋白质功能评分和所有频率[137]。 通过将它们组合成一个块矩阵,并采用该矩阵的特征组成,Eigen可以找到每个突变对有害性的预测准确性。 预测有害的非编码序列变体的某些方法依赖于来自相互干扰的基因组相关元素的自然选择推断(INSIGHT)[138],以识别这些变体上自然选择的强度。 IN SIGHT使用复杂的进化模型,该模型融合了来自多个物种的知识,并解释了基因组不同部分的杂种新发现。 fit Cons方法对DNase-seq,RNA-seq和组蛋白修饰数据进行聚类,与上面的SAGA方法不同[139]。 然后,它估计在自然选择下IN SIGHT识别为强烈的每个簇中的碱基比例。 fitCons根据INSIGHT的自然选择概率,为每个基因组区域标注重要性得分。 LINSIGHT的使用过程与fitCons大致相同,但是对于将观察到的表观基因组特征与INSIGHT分数相关的广义线性模型,避免使用fitCons的聚类步骤[140]。 与fitCons一样,它为每个基因组区域输出INSIGHT评分的适合度。

图4:单细胞多组学数据集成。 典型的单细胞数据分析包括三个步骤。 首先,针对每个测定的组学尺寸,分别对原始数据进行预处理,过滤和质量控制,以解决分析难题,例如技术差异,信号稀疏和放大的工件。 第二,由于单细胞数据本质上是低覆盖率的,因此,通过汇总数据来提高信噪比是一种好习惯; 例如,通过将具有相同功能的基因的表达水平或由相同转录因子结合的基因组区域中具有相似的DNA甲基化水平的基因组合在一起。 最后,将数据集成到一个多组学映射中。

7 整合单细胞测序数据分析

生物学中的一个主要问题是如何描述和量化人类等多细胞生物[141]中的每个细胞,其中可能包含无数种不同类型的细胞。 通常根据细胞所处组织的功能以及该组织的独特形态学特性来定义细胞类型,例如肌肉或神经[142]。 然而,在单一细胞类型内的细胞中大量的细胞间变化表明存在不同的细胞状态(例如,有丝分裂,迁移)和各种细胞行为,这取决于特定微环境中每个细胞的局部活性。 即使在单个组织内,也存在着不同的细胞群体,代表着该组织的不同表现形式。 研究组织的传统方法依赖于bulk测定,并使用来自特定组织(即大量细胞)的大量细胞样本的加权平均值,这可以掩盖样本中各个细胞之间的差异。 单细胞技术的进步使得能够在单细胞分辨率下进行测量,并开辟了新途径来研究整个组织以及细胞群体中细胞的异质性[143]。 单细胞技术从各种角度分析单个细胞,包括基因组学[144],表观遗传学[145],转录组学[146]和蛋白质组学[147]。 但是,多组学单细胞测量对数据分析,集成和解释提出了重大挑战[148],可以从机器学习中受益。 单细胞集成分析的重点是:(1)鉴定和表征细胞类型,并研究细胞亚群在空间和时间上的组织结构;(2)利用多组学数据推论基因调控网络,和评估跨细胞的网络稳定性。

7.1 细胞类型发现和探索

单细胞RNA测序(scRNA-seq)是一项强大的技术,可以测量单个细胞的基因表达并表征细胞群的异质性和功能多样性[149]。 为了表征细胞群,需要确定每个细胞中表达哪些基因以及该基因表达的强度。 给定样本中有关细胞异质性的信息可以回答传统的基于集合的方法无法解决的问题,在传统的基于bulk的方法是将bulk中所有细胞的基因表达测量值平均化。 最近的研究表明,通过对scRNA-seq数据信息的无偏分析,新的细胞类型发现和识别功能不同的细胞亚群是可能的[150]。然而,与bulk的RNA-seq数据相比,与scRNA-seq相关的独特挑战包括高dropout率 [151] (大量基因在某些细胞中的读取为零,但在剩余细胞中相对较高的表达),以及维度诅咒(高维特征空间中细胞之间的区别都比较大)。 为了解决这些挑战,自从对scRNA-seq的首次研究以来[157],提出了各种无监督的计算算法[152、153、154、155、156]。 这些计算算法中的大多数要么依赖于降维技术[153、154、156],要么利用来自多个聚类结果的共识[152、155]。 例如,零膨胀因子分析(ZIFA)是解决dropout事件的最早的降维方法之一,它假设基因的辍学率相对于预期的表达水平遵循双指数分布。 该基因在人群中[153]。 CellTree [158]结合了具有潜在基因组的潜在狄利克雷分配模型,通过检测到的树状结构概述了单细胞样品之间的较深的弓形关系来引入生物学先验知识,从而测量细胞之间的距离。 Cleary等。 [154]通过利用压缩感测以及以压缩格式收集scRNA-seq数据作为基因线性组合的复合测量的假设,从另一个角度出发。 然而,这些降维方法成立的前提是基于合适的数据分布的强有力的统计假设。但这样的假设并不总是成立,而取决于特定的scRNA-seq技术或平台。 与降维方法不同的是,集合方法首先为cells生成多个近似表示或聚类,然后以原则性的方式集成它们。例如,SIMLR [152]首先生成多个内核来表示近似的细胞-细胞变异性,然后使用非凸优化框架来精炼和整合这些内核,并输出对细胞-细胞相似性矩阵的详细且细粒度的描述 。 这个学习到的相似度矩阵可以对scRNA-seq数据进行有效的聚类和可视化。 SC3 [155]采用了类似的策略,即它首先使用不同的基因子集生成多个聚类结果,然后将这些聚类结果与多数投票相结合。 到目前为止,描述的scRNA-seq数据分析方法处理的是通过单个实验生成的scRNA-seq数据。 当涉及对来自多个患者组,组织中不同样品以及多个条件的scRNA-seq数据进行综合分析时,可用方法的数量有限。 唯一的挑战在于以下事实:伴随的生物学和技术变化往往会主导来自多个种群的汇集单个细胞聚类的信号。最近的努力[159]开发了一种多任务聚类方法来解决该问题。 该方法引入了具有嵌入式特征选择的多任务学习方法,可以同时捕获细胞簇之间以及所有细胞群体或实验中差异表达的基因,从而获得更好的单细胞簇精度。

7.2 单细胞多组学分析

除了scRNA-seq数据外,其他单细胞测序技术还可以测量各种生物学维度,例如DNA甲基化[160],组蛋白修饰[161],开放染色质(scATAC-seq和scDNase-seq [162、163]), 染色体构象[164],蛋白质组[165]和代谢组[166]。 单细胞多组学数据可能比任何单个组学数据更强大地提供对细胞的全面了解[167],但是它们的分析给机器学习带来了有趣的挑战。 特别是,不仅需要发现在各种组学数据之间共享的信息,而且还需要发现特定于特定组学数据类型的辅助信号(图4)。 当前用于分析单细胞多组学数据的方法是基于相关性或基于聚类的[168]。 首先,一种流行的方法考虑了组学数据集,并通过测量数据集之间的相关性来产生假设。 例如,一些研究[169,170,171,172]应用规范的相关性分析(CCA)[173,174,175],该方法已被广泛用于bulk数据分析,以估计相关性。 估计单细胞DNA甲基化与SCRNA-seq数据之间的相关性。 CCA学习了组学数据集的低维表示形式,它捕获了所有数据集之间共享的公共信息。 但是,基于CCA的分析是有限的,因为它无法考虑dropout事件。dropout事件是一种特殊的缺失值,其原因是测序实验中的RNA转录本数量少以及单细胞水平上基因表达的随机性。因此,这些辍学事件成为基因-细胞表达矩阵中的零,这些“假零”与“真零”混合,表示根本没有在细胞中表达的基因。为了克服这一dropout问题,估算方法使用多组学数据之间的相关性来估算缺失值。 例如,MAGIC [176]通过将扩散模型应用于基因-基因相关矩阵来估算缺失值。 类似地,scImpute [177]从相似单元的组中提取信息,以完成稀疏数据矩阵并获得单元间相关性的更好表示。 集成单细胞多组学数据的另一个方向是采用两个阶段的方法:首先,为每个组学数据集构建一个单独的聚类,然后将这些聚类进行组合以进行比较和分析[171、178、179、180 ]。 这种方法的优点是能够推断每种数据类型的重要性并识别所有数据类型共有的信息的能力。 例如,研究[179,180]采取的方法是首先基于每个组学数据集对细胞进行聚类,然后使用统计关联测试对聚类进行广泛的比较。 相似的,MATCHER [181]使用单细胞多组学数据的manifold比对。MATCHER首先使用高斯过程潜变量模型独立地对每个组学数据集中的每个细胞进行聚类。然后比对不同组学生成的聚类簇,将他们组合到一个全局的聚类结果中。这些聚类方法的优点是可以检测单细胞多组学数据中的互补模式和通用模式。 然而,由于许多聚类的广泛生成和统计比较,它们可能会遭受计算复杂性的困扰。

7.3 大规模单细胞生物信息学


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3