​TCGA+GEO单基因生信SCI,15分钟手把手带你复现(内附详细操作教程)

您所在的位置:网站首页 基线资料表 ​TCGA+GEO单基因生信SCI,15分钟手把手带你复现(内附详细操作教程)

​TCGA+GEO单基因生信SCI,15分钟手把手带你复现(内附详细操作教程)

2023-08-10 23:37| 来源: 网络整理| 查看: 265

分别从TCGA数据库和GEO数据库中的GSE39582数据集中获取MMP14表达矩阵和相关的临床数据,对应的分别计算总体生存率(OS)和无病生存率(RFS)。

注:不同版本的TCGA数据,有可能获取的患者的样本例数不一致,因为TCGA数据库一直处于更新过程中。所以看到生信文章中TCGA里同一个癌种的患者样本数不一致,大家也不要奇怪,有可能就是版本不同导致的。大家做生信分析的时候,尽量选择TCGA数据库中的最新版本的数据进行下载

材料与方法二:图表结果及复现

01

使用工具

1)仙桃学术工具(https://www.xiantao.love/products)

2)GEO数据库(https://www.ncbi.nlm.nih.gov/gds)

3)HPA数据库(https://www.proteinatlas.org/)

02

复现任务

1)Table1 结直肠癌患者的基线资料表(测试集)

2)Table2 结直肠癌患者的单因素/多因素分析(测试集)

3)Table3 单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析

4)Figure1 在TCGA数据库中,分析结直肠癌中MMP14的差异表达情况。

5)Figure2 在TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分析(OS+RFS)。

6)Figure3 免疫组化检测结直肠癌患者,MMP14在癌与癌旁的表达。

7)Figure4 在测试集中,结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。

03

复现步骤

1)Table1 结直肠癌患者的基线资料表(测试集)

注:本部分由于作者采用的是自己的样本信息,但是我们复现是没有患者信息的,因此,我们选择TCGA的临床患者信息进行代替。

♥ 跟大家说一个好消息,心心念念的GEO数据,在3月份会上线哦~大家再期待一下下。

复现步骤

进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)

选择临床意义(靠)- 基线资料表,点击进入

选择疾病—结直肠癌

选择表达矩阵的数据格式为FPKM。一共有521例样本。由于版本的不同导致的,仙桃学术是调用的最新版的TCGA表达和临床信息。优先选择最新版本的数据库更新数据。

在分子框内点击一下,输入基因名MMP14。

⑥选择第一个基因。

温馨提示:在疾病下拉框中,收录了结肠癌,直肠腺癌,以及结直肠癌三类信息,可供大家根据不同的目的进行选择。

⑦ 点击确认。

⑧ 点击基本参数,在表格格式中有“纯基线资料表”“列联表”“列联表-简洁版”可供选择。根据本文,选择列联表-简洁版。

温馨提示:由于TCGA数据库的临床资料获取容易,所以如果按照整体数据集进行基线资料表分析,非常容易与其他文献“撞车”,所以,现在为了避免与他人结果重复,我们会选择以基因表达差异进行分组,观察基因的表达变化对临床不同变量的作用。

分类变量这里把所有的变量都选上。

其他结果按默认选项保持不变(当然也可以根据实际需要选择,当你拿不准是否需要调整时,一个是可以根据已经发表的文献进行参数调整;一个可以选择默认参数也是没问题的)。点击确认。

结果保存。这里有“保存结果“”Excel表格下载“”CSV表格下载““Word表格下载”等多种结果保存形式。雪球推荐先点击保存结果,输入分析名称,比如“基线资料表”,然后点击确定。这样在历史记录中就会保存有这个结果,留待以后的调整修改。

在历史记录中的第一条“基线资料表”中就有我们刚才保存到 云端的数据啦。后续需要调整分析可以在历史记录这一栏里追溯回来。

同时,也推荐点击Word表格下载。下载后会出现这样的word文档展示页面。一键式发表级的三线表就完成了。该表可以直接应用于文章发表。

2)Table2 结直肠癌患者的单因素/多因素分析(测试集)

复现步骤

①选择临床意义(靠)-预后分析-单因素|多因素COX回归分析

②选择结直肠癌-FPKM数据集

③根据作者表格中罗列的信息,按顺序逐一进行添加

④由于作者选择OS进行分析,因此我们在参数中,也选择OS(默认即可)

⑤点击确认,并保存结果

这里有“保存结果“”Excel表格下载“”CSV表格下载““Word表格下载”等多种结果保存形式。雪球推荐先点击保存结果,输入分析名称,比如“多因素分析”,然后点击确定。这样在历史记录中就会保存有这个结果,留待以后的调整修改。

在历史记录中的第一条“多因素分析”中就有我们刚才保存到 云端的数据啦。后续需要调整分析可以在历史记录这一栏里追溯回来。

同时,也推荐点击Word表格下载。下载后会出现这样的word文档展示页面。一键式发表级的三线表就完成了。该表可以直接应用于文章发表。

3)Table3 单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析

复现步骤

前面步骤同表2,区别是在参数中,将OS调整为其他生存结果。

(小贴士:工具中虽然没有提供DFS的结果,但是可以选择DSS进行代替。虽然预后指标包含很多,如OS,DFS,DSS,PFI等,但是我们自己在进行分析的时候,选择其中的1-2个指标即可,不需要全部预后结果都进行分析的。)

点击确认,并保存结果

在历史记录中的第一条“多因素分析2”中就有我们刚才保存到云端的数据啦。后续需要调整分析可以在历史记录这一栏里追溯回来。

同时,也推荐点击Word表格下载。下载后会出现这样的word文档展示页面。一键式发表级的三线表就完成了。该表可以直接应用于文章发表。

4)Figure1 在结直肠癌中MMP14的差异表达情况。A:正常组和肿瘤组对比;B:TCGA数据库的I、II和III期比较。C:GSE数据集中分析I、II和III期的差异表达。

复现步骤

图A

复现步骤

①进入仙桃学术工具(https://www.xiantao.love/products );选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)

②选择表达差异(挑)中的非配对样本,点击进入。

③选择结肠癌,FPKM数据格式。

温馨提示:仙桃工具除了原文中的TCGA数据集单独分析,还提供了联合GTEx数据库。既Genotype-Tissue Expression,收集正常人因为意外去世的尸体解剖的样本,比如大家很熟悉的GEPIA数据库,也是应用GTEx进行联合分析哦。在TCGA收集的某些癌种癌症组织数据中正常数据不足的时候,把GTEx纳入进来,分析的结果更为准确)

④在类型中选择“点图”,点击输入分子“MMP14”。

⑤点击确认。

⑥进一步设置散点大小

⑦再次点击确认出图

⑧得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于生信文章中材料与方法与结果部分的写作。

⑨点击保存。可以选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。

图B

复现步骤

①选择临床意义-临床相关性,点击进入。

②选择结直肠癌,FPKM数据格式。

③选择临床T stage分期

④在类型中选择“点图”,点击输入分子“MMP14”。

⑤点击确认。

⑥进一步设置散点大小,去掉图中无统计意义的分组

⑦再次点击确认出图

⑧得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于 生信文章中材料与方法与结果部分的写作。

⑨点击保存。可以 选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。

图C

复现步骤

百度检索GEO数据库,选择Datasets

或者直接进入GEO数据库(https://www.ncbi.nlm.nih.gov/gds),在GEO DataSets的检索框中输入GSE39582

点击第一个,在新页面中下载表达矩阵文件。

用EXCEL文件打开矩阵

第一列为探针名,我们需要根据探针编号,找到MMP14基因。

本套数据使用GPL570芯片,因此,下载GPL570芯片信息。

点击Download即可进行下载。

依然是使用EXCEL打开文件

使用查找功能,找到MMP14对应的探针名:160020_at

打开GSE39582矩阵,找到160020_at对应的表达值

找到不同组别的信息

整理矩阵信息

在表格中新建一列,根据设计描述内容,将598例样本,分成I-443例,II-123例,III-19例放入其中

选择仙桃工具-基础绘图-散点图,点击上传

点击确认出图

进一步设置散点大小,去掉图中无统计意义的分组

再次点击确认出图

得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于生信文章中材料与方法与结果部分的写作。

温馨提示:虽然我们可以使用Prism工具进行作图,并计算统计分析,但是新手拿到这类软件,需要至少三天的时间摸索,才能学会如何选择模块,以及统计分析。但是,使用仙桃工具,我们只需要将数据按照示例格式准备好,就可以一键出图,连统计结果都给你算的妥妥的~

点击保存。可以选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。

接下来,我们将利用拼图工具,将图A,图B,图C进行拼接。

选择拼图工具

将左侧保存的图,根据需要,拖拽到右侧的全版图页面

随后调整图片位置

温馨提示:拼图工具,默认打开吸附对齐辅助线,所以当两张图片距离较近时,会自动添加吸附线,以及进行对齐。比某拼图软件,先设置辅助线,再手动对齐操作更加方便快捷。

整理完成,点击保存为PDF,即可进行预览及图片的保存。当然,也有TIFF格式可供选择。

PDF预览图

Figure2 在TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分析(OS)。

复现步骤

①临床意义-预后分析-KM曲线,点击进入。

②选择结直肠癌,FPKM数据格式。

③点击输入分子“MMP14”。预后参数为OS。

温馨提示:除了OS外,工具中还提供了DSS、PFI的结局变量。

④点击确认。

⑤得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于生信文章中材料与方法与结果部分的写作。

⑥点击保存。可以选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。

其余步骤同上,将预后参数设置为DSS。

点击确定,出图

保存结果,并利用仙桃工具中绘制图2。

Figure3 免疫组化检测结直肠癌患者,MMP14在癌与癌旁的表达。

复现步骤

打开HPA网站(https://www.proteinatlas.org/),在检索框中输入MMP14分子

出现的六个模块,分别是组织样本,单细胞分析,病理图谱,脑图谱,血液图谱,以及细胞图谱。我们首先分析肿瘤组织,所以选择病理图谱。

点击Pathology

在疾病中选择COLORECTAL CANCER

选择高表达组织(右侧图)

右键点击另存为肿瘤高表达图1.

在图片左上角,有一个“+”,点击即可放大页面

随后再点击保存,命名为肿瘤高表达图2

同样的操作,选择肿瘤低表达图片并进行保存。

在AI中制作拼图

接下来,选择TISSUE(正常组织),寻找正常组织的MMP14表达情况

选择RECTUM直肠组织。

两个抗体对应两种表达情况,所以我们分别选择一个,随后按照前面的演示,进行图片的保存。并上传至仙桃工具中,进行后续的图片拼接。

最终在AI中获取拼图结果

Figure4 在测试集中,结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。

由于本部分为作者自己的数据,尚不能在数据库中检索到,如果想复现,需要跟作者联系,获取资料。

当然,如果我们自己有数据的话,也可以使用仙桃工具的免费版,直接按照示例数据进行整理,就可以一键出图啦~

回顾一下,本文利用TCGA、GEO以及作者自己的病人样本,三部分数据进行生物信息学分析,包括使用TCGA数据库进行单因素/多因素

我们再来根据本文的图表进行逻辑梳理:

靠1)Table1 结直肠癌患者的基线资料表(测试集)

靠2)Table2 结直肠癌患者的单因素/多因素分析(测试集)

靠3)Table3 单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析

挑4)Figure1 在TCGA数据库中,分析结直肠癌中MMP14的差异表达情况。

靠5)Figure2 在TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分

析(OS+RFS)。

挑&靠6)Figure3 免疫组化检测结直肠癌患者,MMP14在癌与癌旁的表达。

靠7)Figure4 在测试集中,结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。

作者首先利用自己的数据样本,制作结直肠癌患者的基线资料表,随后进行单因素/多因素分析,并分期单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析。进一步,作者在TCGA数据库中,分析结直肠癌中MMP14的差异表达情况,并且利用TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分析(OS+RFS);接下来利用HPA数据库,分析结直肠癌患者,MMP14在癌与癌旁的蛋白表达。最终,在作者的样本中,分析结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。

温馨提示:临床资料常见研究套路,三表一图,即基线资料表,单因素分析表,多因素分析表,及生存曲线图。

本文将临床资料用到极致,可以说,是一个“靠”字闯天涯。

生信文章发表,高分可能需要技巧,但是3分的文章,还是套路感满满的,希望在美丽的指导下,能够带领大家轻松发表生信文章。

上面一套步骤走下来,刚沏的茶都没凉,大家赶紧操练起来吧,我喝茶去了,我们下期再见~

撰文 丨王美丽

排版丨四金兄

值班 | 阿 琛

主编丨小雪球

欢迎大家关注解螺旋生信频道-挑圈联靠公号~返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3