TCGA+GEO单基因生信SCI,15分钟手把手带你复现(内附详细操作教程) |
您所在的位置:网站首页 › 基线资料表 › TCGA+GEO单基因生信SCI,15分钟手把手带你复现(内附详细操作教程) |
分别从TCGA数据库和GEO数据库中的GSE39582数据集中获取MMP14表达矩阵和相关的临床数据,对应的分别计算总体生存率(OS)和无病生存率(RFS)。 注:不同版本的TCGA数据,有可能获取的患者的样本例数不一致,因为TCGA数据库一直处于更新过程中。所以看到生信文章中TCGA里同一个癌种的患者样本数不一致,大家也不要奇怪,有可能就是版本不同导致的。大家做生信分析的时候,尽量选择TCGA数据库中的最新版本的数据进行下载 材料与方法二:图表结果及复现 01 使用工具 1)仙桃学术工具(https://www.xiantao.love/products) 2)GEO数据库(https://www.ncbi.nlm.nih.gov/gds) 3)HPA数据库(https://www.proteinatlas.org/) 02 复现任务 1)Table1 结直肠癌患者的基线资料表(测试集) 2)Table2 结直肠癌患者的单因素/多因素分析(测试集) 3)Table3 单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析 4)Figure1 在TCGA数据库中,分析结直肠癌中MMP14的差异表达情况。 5)Figure2 在TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分析(OS+RFS)。 6)Figure3 免疫组化检测结直肠癌患者,MMP14在癌与癌旁的表达。 7)Figure4 在测试集中,结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。 03 复现步骤 1)Table1 结直肠癌患者的基线资料表(测试集) 注:本部分由于作者采用的是自己的样本信息,但是我们复现是没有患者信息的,因此,我们选择TCGA的临床患者信息进行代替。 ♥ 跟大家说一个好消息,心心念念的GEO数据,在3月份会上线哦~大家再期待一下下。 复现步骤 进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例) 选择临床意义(靠)- 基线资料表,点击进入 选择疾病—结直肠癌 选择表达矩阵的数据格式为FPKM。一共有521例样本。由于版本的不同导致的,仙桃学术是调用的最新版的TCGA表达和临床信息。优先选择最新版本的数据库更新数据。 在分子框内点击一下,输入基因名MMP14。 ⑥选择第一个基因。 温馨提示:在疾病下拉框中,收录了结肠癌,直肠腺癌,以及结直肠癌三类信息,可供大家根据不同的目的进行选择。 ⑦ 点击确认。 ⑧ 点击基本参数,在表格格式中有“纯基线资料表”“列联表”“列联表-简洁版”可供选择。根据本文,选择列联表-简洁版。 温馨提示:由于TCGA数据库的临床资料获取容易,所以如果按照整体数据集进行基线资料表分析,非常容易与其他文献“撞车”,所以,现在为了避免与他人结果重复,我们会选择以基因表达差异进行分组,观察基因的表达变化对临床不同变量的作用。 分类变量这里把所有的变量都选上。 其他结果按默认选项保持不变(当然也可以根据实际需要选择,当你拿不准是否需要调整时,一个是可以根据已经发表的文献进行参数调整;一个可以选择默认参数也是没问题的)。点击确认。 结果保存。这里有“保存结果“”Excel表格下载“”CSV表格下载““Word表格下载”等多种结果保存形式。雪球推荐先点击保存结果,输入分析名称,比如“基线资料表”,然后点击确定。这样在历史记录中就会保存有这个结果,留待以后的调整修改。 在历史记录中的第一条“基线资料表”中就有我们刚才保存到 云端的数据啦。后续需要调整分析可以在历史记录这一栏里追溯回来。 同时,也推荐点击Word表格下载。下载后会出现这样的word文档展示页面。一键式发表级的三线表就完成了。该表可以直接应用于文章发表。 2)Table2 结直肠癌患者的单因素/多因素分析(测试集) 复现步骤 ①选择临床意义(靠)-预后分析-单因素|多因素COX回归分析 ②选择结直肠癌-FPKM数据集 ③根据作者表格中罗列的信息,按顺序逐一进行添加 ④由于作者选择OS进行分析,因此我们在参数中,也选择OS(默认即可) ⑤点击确认,并保存结果 这里有“保存结果“”Excel表格下载“”CSV表格下载““Word表格下载”等多种结果保存形式。雪球推荐先点击保存结果,输入分析名称,比如“多因素分析”,然后点击确定。这样在历史记录中就会保存有这个结果,留待以后的调整修改。 在历史记录中的第一条“多因素分析”中就有我们刚才保存到 云端的数据啦。后续需要调整分析可以在历史记录这一栏里追溯回来。 同时,也推荐点击Word表格下载。下载后会出现这样的word文档展示页面。一键式发表级的三线表就完成了。该表可以直接应用于文章发表。 3)Table3 单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析 复现步骤 前面步骤同表2,区别是在参数中,将OS调整为其他生存结果。 (小贴士:工具中虽然没有提供DFS的结果,但是可以选择DSS进行代替。虽然预后指标包含很多,如OS,DFS,DSS,PFI等,但是我们自己在进行分析的时候,选择其中的1-2个指标即可,不需要全部预后结果都进行分析的。) 点击确认,并保存结果 在历史记录中的第一条“多因素分析2”中就有我们刚才保存到云端的数据啦。后续需要调整分析可以在历史记录这一栏里追溯回来。 同时,也推荐点击Word表格下载。下载后会出现这样的word文档展示页面。一键式发表级的三线表就完成了。该表可以直接应用于文章发表。 4)Figure1 在结直肠癌中MMP14的差异表达情况。A:正常组和肿瘤组对比;B:TCGA数据库的I、II和III期比较。C:GSE数据集中分析I、II和III期的差异表达。 复现步骤 图A 复现步骤 ①进入仙桃学术工具(https://www.xiantao.love/products );选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例) ②选择表达差异(挑)中的非配对样本,点击进入。 ③选择结肠癌,FPKM数据格式。 温馨提示:仙桃工具除了原文中的TCGA数据集单独分析,还提供了联合GTEx数据库。既Genotype-Tissue Expression,收集正常人因为意外去世的尸体解剖的样本,比如大家很熟悉的GEPIA数据库,也是应用GTEx进行联合分析哦。在TCGA收集的某些癌种癌症组织数据中正常数据不足的时候,把GTEx纳入进来,分析的结果更为准确) ④在类型中选择“点图”,点击输入分子“MMP14”。 ⑤点击确认。 ⑥进一步设置散点大小 ⑦再次点击确认出图 ⑧得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于生信文章中材料与方法与结果部分的写作。 ⑨点击保存。可以选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。 图B 复现步骤 ①选择临床意义-临床相关性,点击进入。 ②选择结直肠癌,FPKM数据格式。 ③选择临床T stage分期 ④在类型中选择“点图”,点击输入分子“MMP14”。 ⑤点击确认。 ⑥进一步设置散点大小,去掉图中无统计意义的分组 ⑦再次点击确认出图 ⑧得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于 生信文章中材料与方法与结果部分的写作。 ⑨点击保存。可以 选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。 图C 复现步骤 百度检索GEO数据库,选择Datasets 或者直接进入GEO数据库(https://www.ncbi.nlm.nih.gov/gds),在GEO DataSets的检索框中输入GSE39582 点击第一个,在新页面中下载表达矩阵文件。 用EXCEL文件打开矩阵 第一列为探针名,我们需要根据探针编号,找到MMP14基因。 本套数据使用GPL570芯片,因此,下载GPL570芯片信息。 点击Download即可进行下载。 依然是使用EXCEL打开文件 使用查找功能,找到MMP14对应的探针名:160020_at 打开GSE39582矩阵,找到160020_at对应的表达值 找到不同组别的信息 整理矩阵信息 在表格中新建一列,根据设计描述内容,将598例样本,分成I-443例,II-123例,III-19例放入其中 选择仙桃工具-基础绘图-散点图,点击上传 点击确认出图 进一步设置散点大小,去掉图中无统计意义的分组 再次点击确认出图 得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于生信文章中材料与方法与结果部分的写作。 温馨提示:虽然我们可以使用Prism工具进行作图,并计算统计分析,但是新手拿到这类软件,需要至少三天的时间摸索,才能学会如何选择模块,以及统计分析。但是,使用仙桃工具,我们只需要将数据按照示例格式准备好,就可以一键出图,连统计结果都给你算的妥妥的~ 点击保存。可以选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。 接下来,我们将利用拼图工具,将图A,图B,图C进行拼接。 选择拼图工具 将左侧保存的图,根据需要,拖拽到右侧的全版图页面 随后调整图片位置 温馨提示:拼图工具,默认打开吸附对齐辅助线,所以当两张图片距离较近时,会自动添加吸附线,以及进行对齐。比某拼图软件,先设置辅助线,再手动对齐操作更加方便快捷。 整理完成,点击保存为PDF,即可进行预览及图片的保存。当然,也有TIFF格式可供选择。 PDF预览图 Figure2 在TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分析(OS)。 复现步骤 ①临床意义-预后分析-KM曲线,点击进入。 ②选择结直肠癌,FPKM数据格式。 ③点击输入分子“MMP14”。预后参数为OS。 温馨提示:除了OS外,工具中还提供了DSS、PFI的结局变量。 ④点击确认。 ⑤得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于生信文章中材料与方法与结果部分的写作。 ⑥点击保存。可以选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。 其余步骤同上,将预后参数设置为DSS。 点击确定,出图 保存结果,并利用仙桃工具中绘制图2。 Figure3 免疫组化检测结直肠癌患者,MMP14在癌与癌旁的表达。 复现步骤 打开HPA网站(https://www.proteinatlas.org/),在检索框中输入MMP14分子 出现的六个模块,分别是组织样本,单细胞分析,病理图谱,脑图谱,血液图谱,以及细胞图谱。我们首先分析肿瘤组织,所以选择病理图谱。 点击Pathology 在疾病中选择COLORECTAL CANCER 选择高表达组织(右侧图) 右键点击另存为肿瘤高表达图1. 在图片左上角,有一个“+”,点击即可放大页面 随后再点击保存,命名为肿瘤高表达图2 同样的操作,选择肿瘤低表达图片并进行保存。 在AI中制作拼图 接下来,选择TISSUE(正常组织),寻找正常组织的MMP14表达情况 选择RECTUM直肠组织。 两个抗体对应两种表达情况,所以我们分别选择一个,随后按照前面的演示,进行图片的保存。并上传至仙桃工具中,进行后续的图片拼接。 最终在AI中获取拼图结果 Figure4 在测试集中,结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。 由于本部分为作者自己的数据,尚不能在数据库中检索到,如果想复现,需要跟作者联系,获取资料。 当然,如果我们自己有数据的话,也可以使用仙桃工具的免费版,直接按照示例数据进行整理,就可以一键出图啦~ 回顾一下,本文利用TCGA、GEO以及作者自己的病人样本,三部分数据进行生物信息学分析,包括使用TCGA数据库进行单因素/多因素 我们再来根据本文的图表进行逻辑梳理: 靠1)Table1 结直肠癌患者的基线资料表(测试集) 靠2)Table2 结直肠癌患者的单因素/多因素分析(测试集) 靠3)Table3 单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析 挑4)Figure1 在TCGA数据库中,分析结直肠癌中MMP14的差异表达情况。 靠5)Figure2 在TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分 析(OS+RFS)。 挑&靠6)Figure3 免疫组化检测结直肠癌患者,MMP14在癌与癌旁的表达。 靠7)Figure4 在测试集中,结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。 作者首先利用自己的数据样本,制作结直肠癌患者的基线资料表,随后进行单因素/多因素分析,并分期单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析。进一步,作者在TCGA数据库中,分析结直肠癌中MMP14的差异表达情况,并且利用TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分析(OS+RFS);接下来利用HPA数据库,分析结直肠癌患者,MMP14在癌与癌旁的蛋白表达。最终,在作者的样本中,分析结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。 温馨提示:临床资料常见研究套路,三表一图,即基线资料表,单因素分析表,多因素分析表,及生存曲线图。 本文将临床资料用到极致,可以说,是一个“靠”字闯天涯。 生信文章发表,高分可能需要技巧,但是3分的文章,还是套路感满满的,希望在美丽的指导下,能够带领大家轻松发表生信文章。 上面一套步骤走下来,刚沏的茶都没凉,大家赶紧操练起来吧,我喝茶去了,我们下期再见~ 撰文 丨王美丽 排版丨四金兄 值班 | 阿 琛 主编丨小雪球 欢迎大家关注解螺旋生信频道-挑圈联靠公号~返回搜狐,查看更多 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |