富集分析:(一)概述

您所在的位置:网站首页 基因富集分析工具哪个最好 富集分析:(一)概述

富集分析:(一)概述

2024-05-04 08:44| 来源: 网络整理| 查看: 265

(全文约​6600字)

1. 富集分析1.1. 富集分析概念

富集分析富集分析,本质上是对数据的分布检验,如果分布集中在某个区域,则认为富集。常用的分布检验方法有卡方检验、Fisher精确检验以及KS检验等方法。

生物信息学领域的富集分析在 背景基因集(N) 下获得 一组特定基因集(S) ,S可能是基因列表,表达图谱,基因芯片等形式。在预先构建好基因注释数据库(例如GO,KEGG等)已对背景基因集(N)根据生物功能或过程进行分类的前提下,通过统计学算法找出有那些显著区别于背景基因集(N)的类别(生物组成/功能/过程),或者找出这组特定基因集间在生物组成/功能/过程的共性,经过聚类后去除冗余得到基因富集结果的过程,即为富集分析。

可以这样简单理解富集分析在做什么。全国人口的户籍作为背景数据,我们通过富集分析可以知道相对于全国背景,客家人是不是明显在广东聚集。比如如果广东的客家人数/全国客家人数这个比值远超过广东人数/全国人数的比值,那么我们可以说客家人在广东是富集的。

常用数据 其中,背景基因集(N) 常常是一个物种的基因组注释基因总和。 一组特定基因集(S) 常常是差异表达基因集(differentially expressed genes, DEGs)。 预先构建好基因注释数据库常用GO或KEGG数据库。 常见的统计学算法包括ORA,FCS,PT,NT四种。 实际应用通常会使用其他分析的结果作为**特定基因集(S)**,做基因富集分析来查看这些基因集是否主要集中在某些类别,这些类别代表的功能是否与表型或者进化事件有关联。比如: 比较转录组分析得到的差异表达基因集; 比较基因组分析中得到的某物种特有的基因集; 基因家族收缩扩张分析得到的基因组中显著扩张/收缩的基因集; 基因组共线性分析中在全基因组复制事件附近的Ks值的基因集等各种分析得到的基因集; 1.2. 富集分析的算法

富集分析算法经过发展,常见的有四类:

Figure 1. 富集分析四类算法

from paper:Progress in Gene Functional Enrichment Analysis

1.2.1. 过表达分析(Over Representation Analysis, ORA) 过表达分析(ORA)概念过表达分析(ORA)是对背景基因集(N)和特定基因集(S)按照已知的基因功能或通路等分组,并鉴定特定基因集(S)在哪些组包含比背景基因集(N)比例更多的基因(过度表达,over-represented,即富集enriched)或更少的基因(表达不足,under-represented)的一种统计学方法。

ORA是出现最早,最常用,有完善的统计学理论基础的方法。ORA重点在于通过基因集组成的比例来判断富集程度。

过表达分析的分布检验ORA类方法用的是离散分布的检验(Fisher精确检验,依据超几何分布的原理)。

超几何分布有很多资料可参考,比如:https://www.jianshu.com/p/13f46bebebd4

过表达分析(ORA)的局限性 ORA使用的统计方法(例如超几何分布,二项分布,卡方分布)只考虑差异基因数量,忽略了差异程度(不同表达水平),,需要人为设置阈值,没有一个设置规定,阈值设置有主观性。 通过一刀切的人为规定的阈值,找出差异最显著的单个基因,而忽略其他基因,比如差异小但变化方向一致的基因集,往往后者比前者更重要。 利用的统计学假设每个基因相互独立,但是就生物体本身而言,忽略了基因间内部的复杂的相互作用,并且每个基因在不同的生物学过程中发挥的作用大小不一样,同等看待结果可能会不准确。 假设每条通路都独立其他通路。 过表达分析(ORA)的实际操作需要四组数据: 背景基因集(N):常常是一个物种的基因组注释基因总和 特定基因集(S):常常是差异表达基因集(differentially expressed genes, DEGs) 背景基因集的分类信息:常常通过注释数据库(GO,KEGG等)和背景基因集获得 特定基因集的分类信息:常常通过注释数据库(GO,KEGG等)和特定基因集获得

通过四组数据获得基因数量的2×2列联表,再利用fisher精确检验或超几何分布得到p值。认为设置一个显著性阈值,高于阈值的即为富集基因。

1.2.2. 功能分类打分(Functional Class Scoring,FCS)1.2.2.1. 功能分类打分(FCS)

功能分类打分(FCS)概念和改进功能分类打分(FCS)与ORA相比进行了基本假设的改变,除了考虑单个基因的显著变化外,还考虑微效基因的叠加效果。代表是基因集富集分析(Gene Set Enrichment Analysis, GSEA)

FCS分析的三个步骤

计算单个基因表达水平的统计值,采用如衡量差异基因的ANOVA、Q-statistic、t检验、Z-score、信噪比,进行打分或排序,或者直接使用排序好的基因表达谱 同一通路上所有基因的表达水平统计值进行整合,汇集成单个通路水平的分数或统计值,采用基因水平统计的和、均值或中位数,Wilcoxon rank sum, Maxmean statistic, Kolmogorov-Smirnov statistic 对通路水平的显著性进行评估:利用重抽样(bootstrap)的统计学方法 功能分类打分(FCS)的优势(与ORA相比) 不需要人为规定的阈值来一刀切显著性 FCS考虑同一通路中基因表达的协调变化,即考虑微效基因的叠加效果。 通过考虑基因表达的协调变化,FCS 方法解释了通路中基因之间的依赖性 功能分类打分(FCS)的限制 与 ORA 类似,FCS 独立分析每个通路。一个基因可以在多个通路中发挥作用,这意味着这些通路可以交叉和重叠。 许多 FCS 方法使用基因表达的变化来对给定通路中的基因进行排序,并丢弃进一步分析的变化。例如,假设通路中的两个基因 A 和 B 分别发生 2 倍和 20 倍的变化。只要它们与通路中的其他基因相比具有相同的各自等级,大多数 FCS 方法都会平等地对待它们。 1.2.2.2. 基因富集分析(gene set enrichment analysis, GSEA)

基因富集分析(GSEA)是FCS算法中最常用的一种。

基因富集分析(GSEA)的原理 基因排序首先,根据各基因与表型间相关性r或两组间t检验统计量得分值对背景基因集(N)进行降序排列,比如把所有基因在两个分组(或表型)中的差异度从大到小排序,形成排好序的基因列表。 基因富集查看基因注释数据库(GO/KEGG)中每个小组基因集(例如GO一个通路一个小组)里的基因是否在排序的背景基因集里均匀分布,或者主要分布在排序背景基因集的顶部/底部。均匀分布说明不在这两个分组(或表型)中富集,集中分布在顶部/底部说明这个小组基因集在两个分组(表型)之一富集。 富集分析计算每一小组基因集的富集分数(enrichment score,ES)值,然后对ES值进行显著性检验和多重假设检验,计算得出显著富集的基因集。 基因富集分析(GSEA)分析步骤 计算富集分数(enrichment score,ES):对每一个小组基因集,遍历排好序的背景基因集(N),当基因出现在特定基因集(S)就加分,反之减分,加减分值由基因与表型的相关性决定。 估计ES的统计显著性:基于样品的置换检验可以计算P值。 多重假设检验矫正:根据每一小组基因集的大小对每个基因的ES做标准化,得到标准化NES(normalized enrichment score ,NES)。为了检验每一小组基因集的NES是否显著,将排好序的背景基因集(N)随机打乱排列一定次数,每次都计算每个基因集的NES(ES),得到每个基因集的NES在随机排序情况下的理论分布,从而计算其p值。若p


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3