谢天谢地!终于找到生信发文的套路捷径了!3+,博士毕业够了!(附详细操作教程)

您所在的位置:网站首页 Cytoscape插件MCODE核心模块靶点筛选 谢天谢地!终于找到生信发文的套路捷径了!3+,博士毕业够了!(附详细操作教程)

谢天谢地!终于找到生信发文的套路捷径了!3+,博士毕业够了!(附详细操作教程)

#谢天谢地!终于找到生信发文的套路捷径了!3+,博士毕业够了!(附详细操作教程)| 来源: 网络整理| 查看: 265

不用下载高通量数据、不学R,鼠标“点点点“就能复现3分文章,轻松实现GEO多数据集合并分析,还有Cytoscape和CMAP数据库操作教程,椅子已经按不住了!

今天为大家带来一篇 2019年12月发表于Adipocyte(IF:3.146)的纯生信文章《Identification of biomarkers, pathways and potential therapeutic agents for white adipocyte insulin resistance using bioinformatics Analysis》,文章工作量不大,复现难度适中,5分钟领悟文章思路,半小时完整复现,仔细看,文末有干货呦~

 题目 

Identification of biomarkers, pathways and potential therapeutic agents for white adipocyte insulin resistance using bioinformatics Analysis

1.材料与方法

1)疾病:网膜白色脂肪组织胰岛素抵抗、糖尿病及相关疾病

2)物种:人类

3)数据来源:GSE15773、GSE20950

4)测序类型:mRNA sequence

5)测序平台: GPL570 (Affymetrix Human Genome U133 Plus 2.0 Array)

6)分组及样本数:GSE20950:10 IRO vs 10 ISO;GSE15773:5 IRO vs 5 ISO

2.图标结果及复现

1.使用工具

1)仙桃学术生信工具(https://www.xiantao.love/products)

2)the Attie Lab Diabetes database (http://diabetes.wisc.edu)

3)The Connectivity Map (CMap) (https://portals.broadinstitute.org/cmap)

2.复现任务

Table1  IRO v.s ISO DEGs列表

Fig1  DEGs热图

Fig2  DEGs火山图.

Fig3  GSEA富集分析IRO患者基因

Fig4 GO富集分析.DEGs

Fig5  KEGG富集分析DEGs

Fig6  显著改变的DEGs的PPI网络

Table2  Cytohubba.鉴定得到10个hub genes

Fig7  10周龄肥胖型糖尿病小鼠脂肪组织中hub基因表达显著增加.

Table3  CMap预测可逆转DEGs表达变化的top20小分子化合物

3.复现步骤

1.Table1 IRO v.s ISO DEGs列表1)打开仙桃学术—生信工具(https://www.xiantao.love/),进入“数据集检索”模式,分别检索GSE15773(选择GSM395783-GSM395792共10例样本添加至样本库)、GSE20950(选择GSM523656-GSM523675共20例样本添加至样本库)数据集

2)左侧功能栏中进入“我的样本库”,根据“Title“分组信息选择15例Insulin resistant obese(IRO)为分组1,15例Insulin sensitive obese(ISO)为分组2,提交进行差异分析

3)分析完成后下载结果报告

差异分析结果表格如图,在Excel中按原文标准:|logFC| >1, adj p  2 & p < 0.05”,得到9564个结果,最后只保留id列,上传数据进行分析

3)可视化作图中选择“气泡图”,点的大小可以自由调节,最近新添加了“分面”选项,可以将GO条目中的BP、CC、MF区分显示,确认出图后记得保存结果噢~

4)在“历史记录”中即可查找到我们保存的结果,可直接下载图片

6.Fig5 KEGG富集分析DEGs1)KEGG分析操作同GO富集分析,只需要在数据分析时左侧的“条目“中选择“KEGG”即可

2)KEGG可视化作图同GO分析,一定要记得保存结果噢~

7.Fig6 显著上调DEGs的PPI网络

1)接下来依然是DEGs分析,打开最开始的IRO v.s ISO差异分析结果表格,3.5中的筛选条件得到了9564个基因,数目较多;此处我们将筛选条件调整为“gene count > 2 & adj.P < 0.01”,得到3389个结果,降序排列logFC,选择top 100基因;进入STRING官网(https://stringdb.org/cgi/network?taskId=bi95eWIlhuXf&sessionId=bJnie7b5bEon)

2)“Settings”中的 minimum required interaction score 默认为0.4,与原文一致;查看Analysis,显示得到59 nodes,103 edges,与原文中的47 nodes,102 edges十分接近

3)在Export中选择图片保存格式,顺便直接将PPI网络导入Cytoscape进行后续分析,得到PPI互作网络“三维弹球图”,所有的节点都可以自由拖动,大家也可像原文中合理安排一下布局~

4)Fig6b中使用Cytoscape的MCODE插件识别了显著表达模块,进入Cytoscape,在MCODE插件中选择识别全部网络,新建网络cluster,导出图片即可;生信全书上篇中有老谈老师对蛋白互作网络的炒详细介绍~

8.Table2 Cytohubba.鉴定得到10个hub genes1)Cytoscape中的插件MCODE和Cytohubba都可以识别hub基因,其中Cytohubba中提供了10余种算法,算法之间没有明显的优劣之分,选择其中任一种均可,原文没有详细交代所使用的算法;当然我们也可以将多种算法识别的hub基因取交集进行下游分析。进入Cytohubba模块,使用默认算法计算top10 hub基因

2)将识别的hub基因在word中整理为三线表格式就可以啦;当然Cytohubba中的图也可以导出为图片放在文章中~

9.Fig7 10周肥胖型糖尿病小鼠脂肪中基因的表达明显上调1)接下来作者使用the Attie Lab Diabetes database 数据库(收录了可检索的基因表达资源,显示6种组织(胰岛、脂肪组织、肝脏、比目鱼肌、腓肠肌、下丘脑)中不同实验组(4周/10周龄小鼠)基因表达谱,http://diabetes.wisc.edu)可视化了肥胖BTBR小鼠脂肪组织中hub基因的表达水平。进入the Attie Lab Diabetes database数据库,最上方导航栏选择“Genomic Study of Parental Mice”

2)依次输入CCL2、IL6、CCL4 3个hub基因查看数据库中收录的6种组织中目的基因表达水平。网站对y轴的3种单位做了介绍,Intensity2为探针原始强度,需谨慎用于比较;mlratio官方推荐用于同一细胞系内年龄/肥胖比较,reratio推荐用于不同细胞系间比较;原文中比较了BTBR小鼠lean/ob,因此这里我们选择第3幅—reratio组

3)将CCL2、IL6、CCL4三幅图拼接,仙桃学术/PPT/AI均可完成~

10.Table3 CMap鉴定20种最重要的小分子化合物可逆转DEGs在细胞系中的表达变化

1)最后作者使用CMAP数据库(Connectivity map,由Todd Golub、Eric Lander等哈佛、剑桥、MIT等研究人员利用不同浓度小分子处理不同细胞株后得到基因表达谱,构建的小分子药物、基因表达与疾病关联的生物应用数据库;将小分子与基因表达情况联系起来。旧版网站已经停止更新,上、下调基因之和可达1000;新版网站持续更新,上、下调基因分别不能超过150个)根据IRO/ISO组基因表达模式预测了可能有效干预IRO的20种小分子化合物;且数据库上传文件中基因名称必须是HG-U133A芯片中基因对应的探针ID。我们使用仙桃学术中的差异基因分析结果,根据adj.P、gene count及logFC分别筛选上调、下调top150基因,将gene symbol在NetAffx官方网站(https://www.affymetrix.com/Analysis/compare/index.affx)中进行批量转换

2)将转换后的探针整理到Excel中,另存为txt格式,再将文件后缀命名为GPL196的.grp文件(GPL96探针格式),进入CMAP官网(https://portals.broadinstitute.org/cmap/,旧版网站使用任意邮箱注册即可使用,虽然网站仍可使用但目前已停止更新;新版网站https://clue.io/需教育邮箱注册后方可使用,在旧版的基础上增加了很多其他功能;其中query功能中上、下调基因数量限制在150),导航栏处选择“query“,分别上传上调、下调tag list进行分析,命名分析结果

3)分析完成后导出excel表格,根据Enrichment降序排列,最后将表格在word中整理为三线表就可以得到原文中的同款表格啦~

现在文章中所有的图表都复现完毕啦~ 最后我们来简单总结一下这篇纯生信文章的思路

4.文章思路总结

胰岛素抵抗/胰岛素敏感患者差异表达基因分析(Table1、Fig1、Fig2)

1)GSEA基因集富集分析正、负相关top3 GO通路图(Fig3)

2)GO/KEGG基因集富集分析DEGs气泡图(Fig4、5)

1)IRO组中显著改变DEGs的PPI网络图(Fig6)

2)Cytohubba识别top10 hub基因(Table2)

3)10周龄肥胖型糖尿病小鼠脂肪组织中部分hub基因表达显著增加(Fig7)

CMAP数据库预测可能逆转DEGs表达的top20小分子化合物(Table3)

四字箴言万能框架,半小时在线网站复现结果,距离你学会这篇3分文章就差上手一试啦~

值得说明的是,重复文章并不是我们的目的,掌握生信文章核心思想,R语言或在线网站都是我们实现目标的工具/手段,这么好的工具已经非常降低生信分析门槛,趁着仙桃学术这波技术红利快来实现文章自由吧~



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3