单细胞公共数据集怎么下载?

您所在的位置:网站首页 landstar7下载 单细胞公共数据集怎么下载?

单细胞公共数据集怎么下载?

2023-12-21 17:46| 来源: 网络整理| 查看: 265

数据下载

我们以从GEO数据库下载单细胞数据为例,下载的数据有几个需要注意的点:

测序方法,例如10x Genomics或者smart2;数据平台,跟bulk seq常说的GPLxxx一致,例如GPL21103;数据储存格式,只有一个RAW,还是有count等数据。

前两种需要结合到具体数据集中,我们后续才涉及到,今天我们先根据数据储存格式说说如何下载数据。

首先我们需要进入GEO数据库,在网站打入”GEO NCBI“:

点击红色方框中的条目,进入GEO数据库,根据自己研究的方向和需求,输入检索词例如“tumor scRNA“:

我们选择上面的GEO Datasets的13974个条目进入数据下载页面:

现在我们可以在这里挑选需要的数据集,GEO的scRNA数据存储格式有多种,这里我们来看较为常见的三种:

第一种

以第四个条目“Lipid signalling enforces functional specialization of Treg cells in tumours [scRNA-seq] ”GSE165258的条目为例,点击进入:

对于检索的结果,我们需要先读一下sumary:“代谢重编程通过协调脂肪酸的生物合成和抑制性受体信号通路来加强肿瘤中Treg细胞的功能特化。这些发现为选择性靶向肿瘤内的Treg细胞治疗癌症指明了新的途径。”这是一个代谢重编程和Treg细胞交互相关的数据集,文章使用小鼠的组织,往下拉:

作者设计了2×2的实验,也就是2组,每组2只小鼠,一般我们在下载bulk seq数据的时候会点击Download family部分的条目,但是单细胞数据不一样,我建议大家点击Supplementary file部分的内容,也就是那个358.9Mb的数据,直接点击http可以全部下载。当然这里是样本分组较少,并且每组的样本也比较少,如果样本较多,并且我们也不需要所有样本,只需要特定1-2个样本的时候怎么办呢?我们可以点击http后面的custom,出现这个界面:

然后像上图红框内容一样勾选一个或者多个样本,点击Download,就可以下载特定的样本了,我建议大家下载一个哈,因为下一节课我们会教如何读取数据,到时候大家可以直接读取自己下载的数据,即使你不想下载那也没关系,下节课我也会提供给大家。

好了,第一种类型数据的下载方式就介绍完成。

第二种

接下来我们看看第二种数据格式,这里我们直接搜索“GSE118389”,看看这个数据集的储存方式:

我们同样直接看到Supplementary file部分的内容:

这里有三种数据,分别是counts数据、矫正后的数据和tpm数据,建议大家下载counts进行分析,后面我们自己进行质控跟转换,当然没有counts也可以下载其他两种格式,差别不大,好了,第二种比较简单.

第三种

接下来看第三种,检索“GSE166326”进入数据集页面:

这是一个最标准的单细胞数据集页面,也将会是大家以后最喜欢看到的数据集模式,从Overall design就告诉了我们这是一个10x Genomics平台测的单细胞数据,用10x Genomics做过分析的学员应该都知道,公司做完测序后,会使用Cell Ranger将测序结果整理为三个文件,哪三个文件呢?我们往下拉:

同样在Supplementary file,这里三个文件分别是barcode、feature和matrix,里面都是什么内容呢?我们分别来认识一下:

首先我们知道单细胞分析跟常规的bulk seq的差别就在于多了单细胞的内容对吧,那自然就要有一个文件来说明测到了什么细胞,区分细胞,这个文件就是barcode文件;

接着每个细胞测得的基因的信息也需要一个文件吧?基因的id和symbol等等,那就是这个features文件,有的数据集也会说是genes文件,都是同一个文件;

最后测到的矩阵也需要一个文件吧?那就是第三个文件matrix文件了,以mtx结尾的文件。

注意:如果你是自己从公司测序的文件,不管你是10x平台还是其他平台,都可以跟公司索要这三份文件,并且是整理后的这三份文件,这些都是用Cell Ranger处理了就可以得到的文件。

好了,这样我们从GEO下载公共数据的方法就介绍完成,大部分单细胞的数据都是这三种类型,如果是其他类型,也可以依样画葫芦,找到Supplementary file下载即可,后续的代码都通用。

后续我们的分析都是基于10x平台的数据进行分析,如果是其他平台的数据,也可以按照我们的分析流程进行分析,有所差别需要改动的地方我会在相应的步骤给大家标出来,大家不需要担心。

如果跑代码的过程中无法理解或者有问题,也可以在解螺旋酸谈粉丝群艾特我提问,没有我的群可以艾特队长请队长转给我或者公众号留言,当然更希望大家有不同的见解可以提出来一起探讨啦O(∩_∩)O



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3