OmicShare Tools

您所在的位置:网站首页 kegg途径富集分析 OmicShare Tools

OmicShare Tools

2023-08-31 16:18| 来源: 网络整理| 查看: 265

了解该工具的原理与详细解析,请点击>>

 

最新的KEGG富集分析高级版工具不但支持基因的功能富集分析,还支持代谢组数据的功能富集分析,二者原理相同,操作方法相似,以下主要以基因为例进行说明。

 

原理:在生物体内,不同基因相互协调行使其生物学功能,基于Pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库。 Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。P的计算公式:

其中,N为所有基因(背景基因)的数量,n为差异基因(目的基因)的数量,M为所有基因中该pathway的数量,i为差异基因中注释到该pathway的数量,计算得到的pvalue通过FDR校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的pathway定义为在差异表达基因中显著富集的pathway。

 

功能:

输入目的基因、代谢物列表(常见为差异基因或差异代谢物),通过预设定参数,进行KEGG富集分析并将分析结果进行精美图形可视化,输出图形有富集气泡图、富集条形图、富集圈图、z-score气泡图。

 

适用范围:

可对18个常见物种的基因集进行富集分析,牛、斑马鱼、人、猕猴、小鼠、大鼠、猪、秀丽线虫、果蝇、拟南芥、水稻、番茄、小麦、玉米、酵母、山羊、鸡、籼稻,并且提供2个基因组版本;

也可以自行准备研究物种的背景基因进行富集分析。注意,对于代谢组数据,必须使用自己准备的代谢物背景文件进行富集分析。

 

 数 据 整 理 

 

数据类型:基因

 

1. 输入的表格文件,支持txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、以及Excel专用的xlsx格式,同样支持旧版Excel的xls(Excel 97-2003 )格式。

 

2. 输入文件1——富集的目的基因列表,即想要研究的基因列表:

第一列为基因id(必填),第二列可以为差异表达倍数(可选输入,不包含log2fc则无法绘制富集差异z-score气泡图),具体请查看示例文件格式。

目的基因要包含在背景基因表中。需添加列名。

 

3.输入文件2——背景基因总表,即所有基因的列表:

①如果是平台有提供背景文件的上述18种常见物种,可以直接选用平台提供的背景;注意点击“预览背景基因”查看基因ID类型是否与平台一致,不一致,需要先进行转换。

②不是上述18种常见物种,或基因ID类型不一致且无法转换,需要选“其他物种”,上传自备的背景文件。背景文件第一列为基因id,第二列为用于获取pathway的一个id,类型有4:

类型1:KO号,例如K10942,必须为基因大K号(K number)

类型2:ncbi-geneid,例如18053,即ncbi上得到的geneid,一连串数字组成。

类型3:kegid,例如mmu:18053,即KEGG官网上的id,可以通过KEGG注释或者KEGG官网获得

类型4:kopath,为本公司提供的类型文件,第一列为基因id,第二列为KO号,第三列为通路编号,以“,”分隔,第4列为kegid。

 

数据类型:代谢物

 

①目的代谢物文件:格式同目的基因文件。

 

② 背景代谢物文件:

类型1:C number, 表格由代谢物id和C number(KEGG COMPOUND Database entry id,例如C00047)这两2组成。

类型2:pathway num,表格由代谢物id、C number和pathway number(5位数字,pathway id去掉前面的字母,如00020)。

注意,同样的数据,选择类型1会富集到更多的pathway条目,注意删除不属于当前物种的pathway。

 

参数:

① 背景基因表类型有4种,分别为:KO,ncbi-geneid、KEGGid、kopath。

② 数据库:当背景基因表类型为keggid和ncbi-geneid时,选择相应物种库和全库都可以,但选择相应物种库能缩短运行时间;当背景基因表类型为KO类型时,建议选择相应物种库进行注释。

③ 是否包含Log2FC列:按目的基因实际勾选,不含Log2FC、无法输出富集差异气泡图。

④ 选择P值或Q值作图:P-value/Q-value

⑤ 选择前多少个通路作图:15/20/25/30

⑥ 输出图形选择:富集气泡图/富集条形图/富集圈图/z-score气泡图

 

输出:

① out.path.xls : 目的基因相对于背景基因的富集统计表。

② out_map: 目的基因在各个pathway map的结果图。

③ out.path.png/svg:各个pathway的B级分类的统计图(png/svg格式)(默认每次都输出)。

④ out.barplot/gradient.png/pdf:前n个显著富集条形图或气泡图(png/pdf格式)(n表示选择前多少个通路作图的数量)。

⑤ out.bubble/bubble_sp.png/pdf:前20个显著富集差异z-score气泡图(png/pdf格式)(如果通路太多,则影响图形美观和整体布局,所以该图形默认使用前20个通路绘图)。

⑥ out.circular.png/svg:前n个显著富集圈图(png/svg格式)(n表示选择前多少个通路作图的数量)。

⑦ out.bar_Gradient.xls:绘制富集圈图文件,可用该文件在动态富集圈图工具进行个性化修改。

⑧ out.edge.txt 和 out.node.txt:用这两个文件可在Cytoscape工具中绘制kegg网络图。(包括了补充连接通路和补充相邻通路)(具体参见kegg网络图)

⑨ 点击我的运行窗口中的“预览”,可以对kegg网络图进行个性化修改。(不了解该功能的用户,可以参见kegg网络图)。

注意:该功能不在输出文件中,需要自己调整后可输出png/svg格式的图形。

⑩ out.htm: 网页格式结果。

 

富集分析图形解读及应用请点击该链接查看详情:

 

富集分析相关图形详解(上篇)                                                                               

富集分析相关图形详解(下篇)

 

示例文件:

                目的基因列表(无差异信息)

                目的基因列表(含差异信息)

                背景基因文件

输入:

富集分析的步骤:

第1步:上传目的基因文件;

第2步:选择(或上传)背景基因文件;

第3步:提交。

方式一:使用工具自带的背景基因文件

方式二:使用自己准备的背景文件进行富集分析

输出:

 

① out_map: 目的基因在各个pathway map的结果图

 

 

② out.bubble/bubble_sp.png/pdf:前20个显著富集差异通路的z-score气泡图

 

图形解读:https://www.omicshare.com/forum/thread-6771-1-1.html

 

③ out.circular.png/svg:前20个显著富集差异通路圈图

 

图形解读:https://www.omicshare.com/forum/thread-6972-1-1.html

 

④ kegg 网络图 (该图需要任务运行结果页面点击“预览”,自定义选择需要展示的通路来绘制kegg网络图)

 

 

图形解读:https://www.omicshare.com/forum/thread-6779-1-1.html

 

⑤ out.barplot/gradient.png/pdf:前20个显著富集通路的条形图和气泡图

 

 

⑥ out.path.png/svg:各个pathway的B级分类的统计图

 

 

 

⑦  out.htm:网页格式结果分两个部分,上面为pathway的富集信息(图1),包括pathway名,基因数,背景基因数,P值,Q值,pathwayID,下面为每个pathway具体的基因(图2),点击pathway名可以查看基因在pathway的信息(即① out_map)

 

                                                                                                                 图1

 

                                                                                                                 图2

 

Q1. 为什么使用平台背景基因,任务出错?

 

在提交之前,强烈建议大家在选择号物种/版本/类型后点击“预览背景基因”,查看平台提供的基因跟目的基因类型是否相同。

 

常见出错类型:

 

①平台提供的是Ensembl ID,但是目的基因表是symbol或其他id类型,则需要对目的基因进行基因ID转换;

PS:基因ID转换工具教程

 

②Ensembl id的结构是“物种前缀+序列类型+数字”Ensembl ID 后面的”小数”部分为版本号,如ENSG00000121410.11,小数部分的版本号必须删除。

 

 

Q2. 为什么按照示例文件整理背景基因,却出错?

 

背景基因的类型一般有3种,包括kegid、ncbi-geneid、KO号。只需要准备一列gene id ,一列kegid/ncbi-geneid/KO号即可。一般较常用到的是KO号。

① 注意这里的KO号是指KEGG Orthologs,即基因大K号(如:K10942),而不是KEGG Ontologs(如KO352);

②如下图,含有过多注释信息容易导致运行出错,这里,我们只需要保留gene id 及 k号即可。

③注意类型参数是否跟准备的文件一致。

 

 

Q3.  提交时报错常见问题:

 

1.提交时显示X行X列空行/无数据,请先自查表格中是否存在空格或空行,需要删掉。

2.提交时显示列数只有1列,但表格数据不止1列:列间需要用分隔符隔开,先行检查文件是否用了分隔符。

其它提示报错,请先自行根据提示修改;如果仍然无法提交,可通过左侧导航栏的“联系客服”选项咨询OmicShare客服。

 

 

【关于结果的常见问题】

 

Q4.为什么结果中 p value 全为1:

 

pvalue全为1,基本是目的基因数目与背景基因数目完全一样所致。注意,富集分析中的背景基因是当前物种所有基因的列表。

 

 

Q5. 为什么代谢通路图中会出现半绿半红的框?

 

一半红一半绿的框表示多个基因都属于这个基因家族,其中一个基因表达上调,另一个基因表达下调。

 

 

Q6.为什么pathway注释统计图中有不属于我物种的分类?比如我分析的物种是植物,却出现了人相关的分类名?

 

这是因为在选择参数时,物种类型选择了“全库”,可以根据物种进行类型选择;或者去掉不相关的分类名称。

 

 

Q7.下载图片不清晰?

 

kegg富集分析高级版工具同时提供位图(png)和矢量图(pdf)两种类型的图片。矢量图可以无限放大、不会出现模糊的情况。

 

 

Q8.结果图片可以修改吗?如何修改?

 

静态工具输出的图片无法在线修改,在结果下载包中有提供位图(png)和矢量图(pdf)两种类型图片,如需修改:

①可以将pdf图导入AI(Adobe Illustrator)等软件进行调整。

②根据输出的结果,搜索相关动态工具进行绘制。

kegg网络图可以在线进行调整。在“我的项目”中点击小眼睛“预览”可进入调整页面,并下载(位图png、矢量图pdf或svg)。

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3