药物敏感性预测R包之oncoPredict – 王进的个人网站

您所在的位置:网站首页 空手道王进 药物敏感性预测R包之oncoPredict – 王进的个人网站

药物敏感性预测R包之oncoPredict – 王进的个人网站

2024-07-11 23:00| 来源: 网络整理| 查看: 265

转载自《生信技能树》

药物预测需要训练集,一般来说推荐使用权威资源作为训练集建好模型,这样就可以去预测你自己的数据。

权威的药物预测训练集资源

那么,比较权威的资源一般就是Cancer Therapeutics Response Portal (CTRP) 和 Genomics of Drug Sensitivity in Cancer (GDSC)

Cancer Therapeutics Response Portal (CTRP)

目前主要是CTRP v2,官网是:http://portals.broadinstitute.org/ctrp.v2.1/

481 compounds X 860 CCLs correlations to copy-number and gene-expression data mutation data integrate CCLE and Sanger/MGH calls correlation and enrichment analysis on-the-fly box-whisker visualization in addition to enrichment heatmaps drill-down to scatter plots and concentration-response curves flter by lineage/subtype, growth mode

Genomics of Drug Sensitivity in Cancer (GDSC)

官网是:https://www.cancerrxgene.org/

如果是v2的版本,有809 Cell lines 以及 198 Compounds

如果是看v1版本,987 Cell lines 和 367 Compounds

资源都被整理好了

我们这里直接使用R包oncoPredict整理好的这两个数据库的rdata文件,下载链接是:https://osf.io/c6tfx/ ,

oncoPredict Contributors: Danielle Maeser Robert Gruener Date created: 2021-03-26 01:39 PM | Last Updated: 2021-08-15 10:44 PM

下载约700M,重要的文件 如下所示;

 171M Aug 14 17:10 CTRP2_Expr (RPKM, log2(x+1) Transformed).rds   177M Apr  3  2021 CTRP2_Expr (TPM, log2(x+1) Transformed).rds   1.1M Apr  3  2021 CTRP2_Res.rds   119M Apr  3  2021 GDSC1_Expr (RMA Normalized and Log Transformed).rds   2.0M Apr  3  2021 GDSC1_Res.rds   100M Apr  3  2021 GDSC2_Expr (RMA Normalized and Log Transformed).rds   906K Apr  3  2021 GDSC2_Res.rds

可以看到 Cancer Therapeutics Response Portal (CTRP) 数据库里面的细胞系表达量矩阵是来自于转录组测序, 所以 提供了 FPKM和TPM两个版本供用户选择。

然后呢 Genomics of Drug Sensitivity in Cancer (GDSC) 数据库里面的细胞系表达量矩阵应该是芯片,因为它使用了  RMA Normalized and Log Transformed ,标准的芯片数据处理方法。

代码探索 (GDSC) 数据库

直接看 v2的版本,有809 Cell lines 以及 198 Compounds

主要是八百多个细胞系的约2万个基因的表达量矩阵,以及对应八百多细胞系的约200个药物的IC50值。

library(reshape2) library(ggpubr) th=theme(axis.text.x = element_text(angle = 45,vjust = 0.5)) dir='./DataFiles/Training Data/' GDSC2_Expr = readRDS(file=file.path(dir,'GDSC2_Expr (RMA Normalized and Log Transformed).rds')) dim(GDSC2_Expr) GDSC2_Expr[1:4, 1:4] boxplot(GDSC2_Expr[,1:4]) df=melt(GDSC2_Expr[,1:4]) head(df) p1=ggboxplot(df, "Var2", "value") +th # Read GDSC2 response data. rownames() are samples, colnames() are drugs. dir GDSC2_Res = readRDS(file = file.path(dir,"GDSC2_Res.rds")) dim(GDSC2_Res) # 805 198 GDSC2_Res[1:4, 1:4] p2=ggboxplot(melt(GDSC2_Res[ , 1:4]), "Var2", "value") +th ; p2 # IMPORTANT note: here I do e^IC50 since the IC50s are actual ln values/log transformed already, and the calcPhenotype function Paul #has will do a power transformation (I assumed it would be better to not have both transformations) GDSC2_Res


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3