单细胞转录组数据分析

您所在的位置:网站首页 integrate函数 单细胞转录组数据分析

单细胞转录组数据分析

2023-08-14 11:53| 来源: 网络整理| 查看: 265

前情回顾:

sc-RAN-seq 数据分析||Seurat新版教程:Guided Clustering Tutorial sc-RAN-seq 数据分析||Seurat新版教程: Integrating datasets to learn cell-type specific responses sc-RAN-seq 数据分析||Seurat新版教程: Using sctransform in Seurat

如Stuart, Butler等Comprehensive Integration of Single-Cell Data所述。Seurat v3引入了集成多个单细胞数据集的新方法。这些方法的目的是识别存在于不同数据集中的共享细胞状态(shared cell states),即使它们是从不同的个体、实验条件、技术甚至物种中收集来的。

我们的方法旨在首先识别数据集对之间的“锚(anchors)”。这些代表了个体细胞之间成对的对应关系(每个数据集中有一个),我们假设它们源自相同的生物状态。然后,这些“锚”用于协调数据集,或将信息从一个数据集传输到另一个数据集。下面,我们将演示集成分析的多种应用,并介绍2019年文章的中描述的之外的新功能(cell,Comprehensive Integration of Single-Cell Data)。为了帮助指引用户,我们简要介绍以下功能:

标准工作流程

描述标准Seurat v3集成工作流,并将其应用于集成(跨不同技术)收集的多个人类胰岛数据集。我们还演示了如何使用Seurat v3作为分类器,将集群标签传输到新收集的数据集中。我们向新用户推荐这个。

SCTransform

描述v3集成工作流的一个修改,以便应用于使用我们的新规范化方法SCTransform进行规范化的数据集。我们将此方法应用于与前面描述的相同的胰岛数据集,并集成来自8种不同技术的人类PBMC数据集 eight different technologies,作为人类细胞图谱的系统技术基准。

我们向熟悉SCTransform归一化方法的高级用户推荐这个方法。您可以在我们最近的预印本(preprint)中阅读有关SCTransform的更多信息,并了解如何将其应用于单独的方法中的单个数据集( vignette)。

Reference-based (基于参照)

描述v3集成工作流的修改,其中将数据集的子集(或单个数据集)作为“参考”(reference)列出。这种方法可以显著提高速度,特别是在需要集成大量数据集的情况下。我们将此方法应用于上面描述的8个PBMC数据集,并观察到相同的结果,尽管处理时间大大减少。 对于正在集成许多数据集并希望提高速度的用户,我们推荐使用这个方法。

Reciprocal PCA 描述v3集成工作流的一个修改,其中使用互反PCA(reciprocal PCA)代替正则相关分析来减少锚点查找中使用的维度。这种方法可以提高处理大型数据集的速度和效率。 我们建议用户在处理大量数据集或细胞时,如使用许多实验条件、复制或患者的实验设计,寻找速度/内存方面的改进。然而,这个工作流可能很难对齐高度不同的样本(例如跨物种,或跨模式,集成)。对于“turbo”模式,可以考虑结合“基于参照”的方式整合,如下所示。 标准工作流程

在这个例子工作流中,我们演示了我们最近在论文中引入的两种新方法,Comprehensive Integration of Single Cell Data:

将多个不同的scna -seq数据集组装到一个参考数据集中 将细胞类型标签从参考数据集转移到新的查询数据集

在本例中,我们选择了通过四种技术(CelSeq (GSE81076) CelSeq2 (GSE85241)、Fluidigm C1 (GSE86469)和SMART-Seq2 (E-MTAB-5061)生成的人类胰岛细胞数据集。为了方便起见,我们通过SeuratData包分发这个数据集。

新方法的代码在Seurat v3中实现。您可以使用install.packages从CRAN下载和安装。

除了新的方法之外,Seurat v3还包含了许多旨在改进Seurat对象和用户交互的改进。为了帮助用户熟悉这些更改,我们为常见任务编写了一个命令备忘单( command cheat sheet)。

载入包和数据:

library(Seurat) packageVersion("Seurat") >[1] ‘3.1.0’ library(SeuratData) #InstallData("pbmc3k") #InstallData("panc8") #install.packages("C:/Users/Administrator/Desktop/panc8.SeuratData_3.0.2.tar.gz", repos = NULL, type = "source") #install.packages("C:/Users/Administrator/Desktop/pbmcsca.SeuratData_3.0.0.tar.gz", repos = NULL, type = "source") > library(panc8.SeuratData) > data("panc8") > panc8 An object of class Seurat 34363 features across 14890 samples within 1 assay Active assay: RNA (34363 features) > summary(panc8) Length Class Mode 1 Seurat S4 > citation('panc8.SeuratData') 在出版物中使用程序包时引用‘panc8.SeuratData’: Satija Lab (2019). panc8.SeuratData: Eight Pancreas Datasets Across Five Technologies. R package version 3.0.2. A BibTeX entry for LaTeX users is @Manual{, title = {panc8.SeuratData: Eight Pancreas Datasets Across Five Technologies}, author = {Satija Lab}, year = {2019}, note = {R package version 3.0.2}, } Warning message: In citation("panc8.SeuratData") : 程序包‘panc8.SeuratData’里的DESCRIPTION文件中没有日期这一域

要构造参考数据集,我们将在各个数据集之间标识“锚”。首先,我们将组合的对象拆分为一个列表,每个数据集作为一个元素。

> pancreas.list summary(pancreas.list) Length Class Mode celseq 1 Seurat S4 celseq2 1 Seurat S4 smartseq2 1 Seurat S4 fluidigmc1 1 Seurat S4 indrop 1 Seurat S4

在找到锚之前,我们执行标准的预处理(log-normalization),并为每个锚分别识别变量特性。注意,Seurat v3实现了一种改进的基于方差稳定转换(“vst”)的变量特征选择方法。

pancreas.list


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3