使用GSVA方法计算某基因集在各个样本的表现

您所在的位置:网站首页 r语言计算zscore 使用GSVA方法计算某基因集在各个样本的表现

使用GSVA方法计算某基因集在各个样本的表现

2024-07-06 08:34| 来源: 网络整理| 查看: 265

文章发表于2013年,GSVA: gene set variation analysis for microarray and RNA-Seq data 同样是broad 研究生出品,其在2005年PNAS发表的gsea已经高达1.4万的引用了,不过这个GSVA才不到300。

算法细节

算法本身就不是很好理解,并不强求一定要理解透彻,可以参考2005年的GSEA算法:

GSEA 算法 GSEA分析一文就够(单机版+R语言版) GSEA的统计学原理试讲

GSVA starts by evaluating whether a gene i is highly or lowly expressed in sample j in the context of the sample population distribution.

可以是芯片杂交的信号代表的表达量,也可以是转录组测序定量。

For each gene expression profile xi={xi1,…,xin}, a non-parametric kernel estimation of its cumulative density function is performed.

We offer two approaches for turning the KS like random walk statistic into an enrichment statistic (ES) (also called GSVA score), the classical maximum deviation method and a normalized ES.

而且作者也在测试数据和真实数据把自己的GSVA算法跟GSEA,PLAGE, single sample GSEA (ssGSEA)或者其它算法进行了比较, 还在TCGA的ovarian serous cystadenocarcinoma (OV)癌症表达矩阵(n=588) ,用MSigDB数据库的 canonical gene sets (C2) 基因集做了比较和测试。

还比较了转录组测序数据和芯片数据,这些数据都提供了下载链接,最后作者把算法打包成了 Bioconductor package for R under the name GSVA at http://www.bioconductor.org.

安装GSVA这个R包

安装并且查看21页的PDF教程:

代码语言:javascript复制## try http:// if https:// URLs are not supported source("https://bioconductor.org/biocLite.R") options(BioC_mirror="http://mirrors.ustc.edu.cn/bioc/") biocLite("GSVA") library(GSVA) browseVignettes("GSVA") browseVignettes("estimate")

最新版教程:https://www.bioconductor.org/packages/devel/bioc/vignettes/GSVA/inst/doc/GSVA.pdf

其实核心函数就是gsva(),需要两个输入:the gene expression data and a collection of gene sets.

其实这个函数也可以选择其它3个模型:

method="plage" (Tomfohr et al., 2005). Pathway level analysis of gene expression (PLAGE)method="zscore" (Lee et al., 2008). The combined z-score method amethod="ssgsea" (Barbie et al., 2009). Single sample GSEA (ssGSEA) calculates a gene set enrichment score per sample

另外一个比较重要的参数是: default argument mx.diff=TRUE to obtain approximately normally distributed ES,如果设置为false,那么通常是 a bimodal distribution of GSVA enrichment scores for each gene

非常多的文章都在引用该算法,比如:https://www.nature.com/articles/srep16238#f1

先在模拟数据应用GSVA

代码很简单,构造一个 30个样本,2万个基因的表达矩阵, 加上 100 个假定的基因集。

代码语言:javascript复制library(GSVA) p


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3