单细胞之轨迹分析

您所在的位置:网站首页 cds的颜色 单细胞之轨迹分析

单细胞之轨迹分析

2023-09-30 16:19| 来源: 网络整理| 查看: 265

轨迹分析系列:

单细胞之轨迹分析-1:RNA velocity

拟时间序列分析(Pseudotime分析)的字面意思是通过构建细胞间的变化轨迹来重塑细胞随着时间的变化过程。从具体的分类分析和复杂程度来说,可以分为细胞轨迹分析和细胞谱系分析。 其原理此前已经介绍过,参考单细胞测序的轨迹推断。 细胞轨迹分析指的是简单模型的细胞变化轨迹分析,通常指的是细胞沿着某个过程有特定化的变化终点,轨迹具有简单树状结构,一端是“根”,另一端是“叶”;细胞谱系分析通常指的是某类祖源细胞,在特定条件下,有多个发育轨迹和命运,变化过程类似复杂树状分支变化过程。因此,简单细胞轨迹分析和细胞谱系分析原理上类似,复杂程度有所区别,当然,基于此的分析手法和方式也会有所不同。

伪时间是衡量单个细胞在细胞分化等过程中取得了多大进展的指标。在许多生物学过程中,细胞并不是完全同步的。在细胞分化等过程的单细胞表达研究中,捕获的细胞在分化方面可能分布广泛。也就是说,在同一时间捕获的细胞群中,有些细胞可能已经很长时间了,而有些细胞甚至还没有开始这个过程。当想要了解在细胞从一种状态转换到另一种状态时所发生的调节更改的顺序时,这种异步性会产生主要问题。跟踪同时捕获的细胞间的表达可以产生对基因动力学一个大致的认识,该基因表达的明显变异性将非常高。Monocle根据每个cell在学习轨迹上的进展对其进行排序,从而缓解了由于异步而产生的问题。Monocle不是跟踪表达式随时间变化的函数,而是跟踪沿轨迹变化的函数,我们称之为伪时间。伪时间是一个抽象的分化单位:它只是一个cell到轨迹起点的距离,沿着最短路径测量。轨迹的总长度是由细胞从起始状态移动到结束状态所经历的总转录变化量来定义的。

生信技能树此前推送过一篇文章:拟时序分析就是差异分析的细节剖析,指出拟时序分析就是差异分析的细节剖析,所有的大样本量差异分析都可以转为拟时序分析,可以加深我们对拟时序分析的理解。

Monocle2是做单细胞拟时分析最有名的R包。 相较还在持续开发中的Monocle3来说,Monocle2更稳定且更倾向于半监督的分析模式,更适合针对感兴趣的细胞亚群做个性化分析。

monocle2 文章链接:https://www.nature.com/articles/nmeth.4402

文章中的核心理论为:每个细胞都可以表示为高维空间中的一个点,在高维空间中,每个维对应着一个有序基因的表达水平。高维数据首先通过几种降维方法,如PCA(默认)、扩散映射等,投射到低维空间。Monocle 2然后在自动选择的一组数据质心上构造一棵生成树(DDRTree算法)。然后,该算法将细胞移动到它们最近的树的顶点,更新顶点的位置以适应细胞,学习新的生成树,并迭代地继续这个过程,直到树和细胞的位置已经收敛。在这个过程中,Monocle 2保持了高维空间和低维空间之间的可逆映射,从而既学习了轨迹,又降低了数据的维数。一旦Monocle 2学会了树,用户就会选择一个tip作为根。计算每个单元的伪时间作为其沿树到根的测地线距离,并根据主图自动分配其分枝。因为monocle2学习树结构,与其他方法相比,分支结构自动出现。当它更新细胞位置并细化树时,monocle2简化了轨迹的结构,修剪了小的分支,这样最终的轨迹只保留了描述细胞状态显著差异的分支。

monocle2官网:http://cole-trapnell-lab.github.io/monocle-release/docs/

摘要

单细胞水平的研究使人们可以描述复杂生理过程和高度异质性细胞群体的转录调控。这些研究有助于发现识别特定细胞亚型的基因、标记生物过程中间状态的基因,以及在两种不同的细胞命运之间过渡态的基因。在许多单细胞研究中,单个细胞以不同步的方式执行基因表达过程。实际上,每个细胞都是正在研究的转录过程的一个瞬间。Monocle包是分析单细胞测序的工具。 Monocle引入了在伪时间(拟时间)内对单个细胞排序的策略,利用单个细胞的非同步进程,将它们置于与细胞分化等生物学过程相对应的轨迹上。Monocle利用先进的机器学习技术(反向图嵌入)从单细胞数据中学习显式的主图(展现细胞转录特征相似性关系的图,Monocle2使用DDTree降维图,Monocle3使用UMAP降维图)来对细胞进行排序,Monocle的机器学习算法可以依据上述降维图形,学习描述细胞如何从一种状态过渡到另一种状态的轨迹。Monocle假设轨迹是树状结构,一端是“根”,另一端是“叶”。一个细胞在生物过程的开始,从根开始沿着主干进行,直到它到达第一个分支。然后,该细胞必须选择一条路径,并沿着树移动越来越远,直到它到达一片叶子。一个细胞的假时间值是它返回根所需的距离。降维方面monocle与seurat的过程大同小异,首先进行数据标准化,其次选择部分基因代表细胞转录特征 ,最后选用适当的算法降维。这可以强大而准确地解决复杂的生物过程。 Monocle也可以进行聚类(即使用t-SNE和密度峰值聚类)和差异基因表达测试,使人们能够识别在不同状态下差异表达的基因,沿着生物过程以及不同的细胞命运时基因表达的变化。Monocle是专为单细胞RNA-Seq研究设计的,但也可以用于其他分析。

Introduction

Monocle 2包括新的和改进的算法用于细胞分类和计数,执行细胞亚群之间的差异表达分析,以及细胞轨迹重建。

Monocle主要可以进行以下三种分析:

细胞的聚类、分类和计数。 Single-cell RNA-Seq experiments allow you to discover new (and possibly rare) subtypes of cells. Monocle helps you identify them. 重建单细胞轨迹。 In development, disease, and throughout life, cells transition from one state to another. Monocle helps you discover these transitions. 差异表达分析。 Characterizing new cell types and states begins with comparing them to other, better understood cells. Monocle includes a sophisticated but easy to use system for differential expression.

首先,Monocle 2使用一种简单的、无偏的和高度可扩展的统计程序来选择具有轨迹进展特征的基因。然后,它采用了一类流形学习算法,旨在在高维单细胞RNA-seq数据中嵌入一个主图。以前的方法是通过启发式分析细胞之间的成对距离来推断分支结构,而Monocle 2可以使用这张图来直接识别发育的命运决定。我们已经通过广泛的基准测试证明,Monocle 2优于其他工具,如Wishbone,而不需要用户指定轨迹的结构。

Monocle的使用

分析流程示意图:

1. 安装 install.packages("devtools") devtools::install_github("cole-trapnell-lab/monocle-release@develop")

或者

if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("monocle") 2. 创建CellDataSet

2.1 将Seurat object中数据提取来创建⚠️ 数据准备:pbmc3k数据下载(轨迹分析的前提是待分析的细胞有紧密的发育关系,PBMC细胞不是很好的的示例数据,在此仅作为演示。) 由于该数据集没有对细胞类型进行注释,因此我们参考seurat标准流程对这个数据集进行注释。

library(dplyr) library(Seurat) library(patchwork) #用来做拼图的包,后面的p1|p1|p3在一张图上展示三个图就是这个包的功劳 # Load the PBMC dataset pbmc.data


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3