单细胞实战(1)数据下载

您所在的位置:网站首页 测序文件怎么打开的视频 单细胞实战(1)数据下载

单细胞实战(1)数据下载

2024-06-15 11:06| 来源: 网络整理| 查看: 265

这篇文章我们将介绍从geo数据库下载单细胞测序数据后,多种数据格式多样本情况下,如何读取数据并创建seurat对象。

本文主要结构:

一、数据下载

二、数据读取与seurat对象创建

单样本情况下各种格式数据的读取,读取后seurat对象的创建多样本情况下各种格式数据的读取,读取后seurat对象的创建、合并 一、数据下载

大家自行去GEO官网(https://www.ncbi.nlm.nih.gov/gds)搜索下载自己想要的单细胞测序数据。本文后面会提供数据用于示例代码测试。

图片

GEO数据库上提供的单细胞测序数据常见格式主要有以下几种:

10x Genomics格式: matrix.mtx、genes.tsv和barcodes.tsv文件是10X Genomics单细胞转录组测序数据的标准文件格式。这些文件通常存储在一个目录中,可以使用Read10X函数从R语言中读取。

matrix.mtx:这是一个稀疏矩阵文件,其中包含了每个单细胞的基因表达信息。矩阵中的每一行代表一个基因,每一列代表一个单细胞,矩阵中的每个元素表示该基因在该单细胞中的表达量。genes.tsv(或features.tsv):这是一个文本文件,其中包含了每个基因的信息。每一行代表一个基因,每一列代表一个属性,例如基因名称、基因编号等。barcodes.tsv:这是一个文本文件,其中包含了每个单细胞的条形码信息。每一行代表一个单细胞,每一列代表一个属性,例如条形码序列、细胞类型等。

h5格式: 这是一种用于存储大规模数据的二进制文件格式,它可以包含多种数据类型,如矩阵、表格、图像等。

压缩文本矩阵(TXT或CSV的GZ文件): 压缩文本矩阵可以用于存储单细胞测序数据的表达矩阵或元数据,它可以减少文件的大小和传输时间 。

h5ad格式: 它专门用于存储和分享单细胞表达数据,它使用Anndata库来创建和读取。h5ad格式可以与cellxgene或Seurat等工具兼容,进行单细胞数据的可视化和分析 。

h5seurat格式: 这是一种基于h5格式的文件格式,它专门用于存储和分析多模态单细胞和空间分辨率表达实验,如CITE-seq或10X Visium等技术。h5seurat格式可以与SeuratDisk等工具兼容,进行单细胞数据的读写 。

R数据文件(RDS/RDATA文件): 以R语言的数据文件格式存储表达式矩阵,需要R软件直接读取。

二、数据读取与seurat对象创建 单样本

单样本情况下每种格式的数据读取与seurat对象创建演示:

10x Genomics格式:

演示数据的下载:

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE234527

图片

文件下载后解压,并修改名称,存放路径如下图:

图片

读取文件并创建对象的代码参考:

# 导入Seurat包 library(Seurat) # 查看当前工作目录 getwd() # 设置工作目录(将工作目录切换到指定路径下) setwd("D:/project/scRNA") # 读取10x数据,data.dir参数指定存放文件的路径 seurat_data


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3