单细胞转录组数据分析

2023-08-14 11:53| 来源: 网络整理| 查看: 265

前情回顾：

sc-RAN-seq 数据分析||Seurat新版教程:Guided Clustering Tutorial sc-RAN-seq 数据分析||Seurat新版教程: Integrating datasets to learn cell-type specific responses sc-RAN-seq 数据分析||Seurat新版教程: Using sctransform in Seurat

如Stuart， Butler等Comprehensive Integration of Single-Cell Data所述。Seurat v3引入了集成多个单细胞数据集的新方法。这些方法的目的是识别存在于不同数据集中的共享细胞状态(shared cell states)，即使它们是从不同的个体、实验条件、技术甚至物种中收集来的。

我们的方法旨在首先识别数据集对之间的“锚(anchors)”。这些代表了个体细胞之间成对的对应关系(每个数据集中有一个)，我们假设它们源自相同的生物状态。然后，这些“锚”用于协调数据集，或将信息从一个数据集传输到另一个数据集。下面，我们将演示集成分析的多种应用，并介绍2019年文章的中描述的之外的新功能（cell，Comprehensive Integration of Single-Cell Data）。为了帮助指引用户，我们简要介绍以下功能:

标准工作流程

描述标准Seurat v3集成工作流，并将其应用于集成(跨不同技术)收集的多个人类胰岛数据集。我们还演示了如何使用Seurat v3作为分类器，将集群标签传输到新收集的数据集中。我们向新用户推荐这个。

SCTransform

描述v3集成工作流的一个修改，以便应用于使用我们的新规范化方法SCTransform进行规范化的数据集。我们将此方法应用于与前面描述的相同的胰岛数据集，并集成来自8种不同技术的人类PBMC数据集 eight different technologies，作为人类细胞图谱的系统技术基准。

我们向熟悉SCTransform归一化方法的高级用户推荐这个方法。您可以在我们最近的预印本（preprint）中阅读有关SCTransform的更多信息，并了解如何将其应用于单独的方法中的单个数据集（ vignette）。

Reference-based （基于参照）

描述v3集成工作流的修改，其中将数据集的子集(或单个数据集)作为“参考”（reference）列出。这种方法可以显著提高速度，特别是在需要集成大量数据集的情况下。我们将此方法应用于上面描述的8个PBMC数据集，并观察到相同的结果，尽管处理时间大大减少。对于正在集成许多数据集并希望提高速度的用户，我们推荐使用这个方法。

Reciprocal PCA 描述v3集成工作流的一个修改，其中使用互反PCA（reciprocal PCA）代替正则相关分析来减少锚点查找中使用的维度。这种方法可以提高处理大型数据集的速度和效率。我们建议用户在处理大量数据集或细胞时，如使用许多实验条件、复制或患者的实验设计，寻找速度/内存方面的改进。然而，这个工作流可能很难对齐高度不同的样本(例如跨物种，或跨模式，集成)。对于“turbo”模式，可以考虑结合“基于参照”的方式整合，如下所示。标准工作流程

在这个例子工作流中，我们演示了我们最近在论文中引入的两种新方法，Comprehensive Integration of Single Cell Data:

将多个不同的scna -seq数据集组装到一个参考数据集中将细胞类型标签从参考数据集转移到新的查询数据集

在本例中，我们选择了通过四种技术(CelSeq (GSE81076) CelSeq2 (GSE85241)、Fluidigm C1 (GSE86469)和SMART-Seq2 (E-MTAB-5061)生成的人类胰岛细胞数据集。为了方便起见，我们通过SeuratData包分发这个数据集。

新方法的代码在Seurat v3中实现。您可以使用install.packages从CRAN下载和安装。

除了新的方法之外，Seurat v3还包含了许多旨在改进Seurat对象和用户交互的改进。为了帮助用户熟悉这些更改，我们为常见任务编写了一个命令备忘单（ command cheat sheet）。

载入包和数据：

library(Seurat) packageVersion("Seurat") >[1] ‘3.1.0’ library(SeuratData) #InstallData("pbmc3k") #InstallData("panc8") #install.packages("C:/Users/Administrator/Desktop/panc8.SeuratData_3.0.2.tar.gz", repos = NULL, type = "source") #install.packages("C:/Users/Administrator/Desktop/pbmcsca.SeuratData_3.0.0.tar.gz", repos = NULL, type = "source") > library(panc8.SeuratData) > data("panc8") > panc8 An object of class Seurat 34363 features across 14890 samples within 1 assay Active assay: RNA (34363 features) > summary(panc8) Length Class Mode 1 Seurat S4 > citation('panc8.SeuratData') 在出版物中使用程序包时引用‘panc8.SeuratData’: Satija Lab (2019). panc8.SeuratData: Eight Pancreas Datasets Across Five Technologies. R package version 3.0.2. A BibTeX entry for LaTeX users is @Manual{, title = {panc8.SeuratData: Eight Pancreas Datasets Across Five Technologies}, author = {Satija Lab}, year = {2019}, note = {R package version 3.0.2}, } Warning message: In citation("panc8.SeuratData") : 程序包‘panc8.SeuratData’里的DESCRIPTION文件中没有日期这一域

要构造参考数据集，我们将在各个数据集之间标识“锚”。首先，我们将组合的对象拆分为一个列表，每个数据集作为一个元素。

> pancreas.list summary(pancreas.list) Length Class Mode celseq 1 Seurat S4 celseq2 1 Seurat S4 smartseq2 1 Seurat S4 fluidigmc1 1 Seurat S4 indrop 1 Seurat S4

在找到锚之前，我们执行标准的预处理(log-normalization)，并为每个锚分别识别变量特性。注意，Seurat v3实现了一种改进的基于方差稳定转换(“vst”)的变量特征选择方法。

pancreas.list

【本文地址】

单细胞转录组数据分析

单细胞转录组数据分析

今日新闻

推荐新闻