GEO数据库使用和数据下载

您所在的位置:网站首页 geo数据库lncrna GEO数据库使用和数据下载

GEO数据库使用和数据下载

2023-05-26 17:13| 来源: 网络整理| 查看: 265

 小果 生信果   原创不易   欢迎点赞+收藏+关注

网址为https://www.ncbi.nlm.nih.gov/

在搜索框前面的All Databases处有个下拉箭头,可以选择不同的数据库,这里我们选择GEO Dataset数据库,这里面就是我们要找的数据了。

在搜索框里打上关键字,一般是疾病的名字,这里以Stanford A型主动脉夹层(Type A Aortic Dissection,TAAD)为例:输入关键字后,点击搜索就可以了

上面这个图就是搜索结果了,我们选择数据集一般有一下几个考量:

第一是物种,一般常用到的就是人,大鼠和小鼠。右边可以选择物种,缩小范围。

第二是测序类型,常见的是Expression profiling by array和Expression profiling by high throughput sequencing,这个一般就是mRNA的表达量了,此外还有单细胞,非编码RNA,甲基化等类型,可以根据需要选择。

第三是样本量,一般来讲,样本越多越好,很多分析都对样本量有要求,比如WGCNA就要大于15,双疾病要求每组至少6个样本。

第四还需要留意样本组成,一般疾病最好要有患病和正常样本的分组,癌症样本最好要有预后信息。

我们点进一个样本集,看一下下面这个:

可以先看一下样本的基本信息,数据集的标号是GSE开头的。

然后我们看一下样本构成,患病和正常样本分的很清楚,样本的编号是GSM开头,重点关注一下测序平台,这个是RNA测序数据,这样的数据库一般会提供一个表达矩阵放在补充材料里,如果没有的话,一般就不选择这个数据集了,不过我们这个是有的,就在最下面的Supplementary file里,直接下载就可以了。

这个表达矩阵就算是整理的比较好的,有基因名,表达数据是count值,可以根据需要进行标准化。

接下来小云再给大家找一个芯片数据集,它的下载方式和测序数据不太一样。

上面这个是结直肠癌的,GSE39582,测序平台GPL570,这也是一个常见的芯片测序平台,芯片数据要从Series Matrix Files处下载,点进去,界面如下:

点击就可以下载了。

芯片数据下载之后需要做一个转换,因为芯片数据的行名是探针编号,需要转换为基因名,探针和基因名的对应关系可以点击测序平台,也就是GPL570这个位置,根据下面这个表进行ID转换。

推荐阅读

利用ggplot2绘制多角图绘制

对多个分组进行生存分析

利用ggcor包绘制相关性图

Yeah!小果发现了这个好工具,肿瘤免疫功能分析

“生信果”,生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器、生物信息学的教程,以及基于R的分析和可视化等原创内容,一起见证小白和大佬的成长。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3