CancerSubtypes包的介绍(根据生信技能树Jimmy老师分享的乳腺癌分子分型包资料整理)

您所在的位置:网站首页 consensusclusterplus参数设置 CancerSubtypes包的介绍(根据生信技能树Jimmy老师分享的乳腺癌分子分型包资料整理)

CancerSubtypes包的介绍(根据生信技能树Jimmy老师分享的乳腺癌分子分型包资料整理)

2023-12-11 05:14| 来源: 网络整理| 查看: 265

CancerSubtypes包的介绍(根据生信技能树Jimmy老师分享的乳腺癌分子分型包资料整理,感谢Jimmy老师!) 1. 引言 2. 数据处理 2.1 基本处理 2.1.1 通过检查数据分布来分析原始数据 2.1.2 具有缺失值(NA)特征的数据插补 2.1.3 数据标准化 2.2 特征选择 2.2.1 基于最大方差的特征选择 2.2.2 基于最大方差的绝对中位差的特征选择 2.2.3 基于主成分分析的特征降维和提取 2.2.4 基于Cox回归模型的特征选择 3. 用于癌症亚型识别的聚类方法 3.1 用于癌症亚型识别的共识聚类 3.2 用于癌症亚型识别的共识非负矩阵分解 3.3 用于癌症亚型识别的综合聚类 3.4 用于癌症亚型识别的相似性网络融合 3.5 用于癌症亚型识别的SNF、CC结合方法 3.6 用于癌症亚型识别的加权相似性网络融合 4. 已鉴定癌症亚型的结果验证、解释和可视化 4.1 轮廓宽度 4.2 生存分析 4.3 聚类的统计显著性 4.4 差异表达分析 期刊: Bioinformatics 论文: CancerSubtypes: an R/Bioconductor package for molecular cancer subtype identification, validation and visualization Github link: https://github.com/taoshengxu/CancerSubtypes/blob/master/inst/doc/CancerSubtypes-vignette.R 数据集:TCGA 亮点:R包-CancerSubtypes,用于使用 多组学数据(包括基因表达,miRNA表达和DNA甲基化数据)鉴定 癌症亚型。

CancerSubtypes包整合了四种主要的计算方法 ,这些方法在癌症亚型鉴定方面被高度引用。CancerSubtypes为数据预处理,特征选择和后续结果分析(包括结果计算、生物学验证和可视化)提供标准化框架。

每个步骤的输入和输出都以相同的数据格式打包,便于比较不同的方法。

1. 引言

CancerSubtypes是用于癌症亚型分析的软件包,包括从数据集处理到结果验证的各种功能。

在CancerSubtypes软件包中,我们提供了一个统一的框架,分析癌症亚型的原始数据以及结果可视化。主要功能包括基因组数据预处理、癌症亚型鉴定、结果验证、结果可视化和比较。

CancerSubtypes为基因组数据预处理提供了常见的数据插补和归一化方法。同时,有四种特征选择方法来筛选基因组数据集中的关键特征。常见的癌症亚型识别方法集成在此软件包中,例如共识聚类(CC)[来自R包ConsensusClusterPlus],共识非负矩阵分解(CNMF)[来自R包NMF],综合聚类(iCluster)[来自R包iCluster],相似性网络融合(SNF)[来自R包SNFtool],SNF和CC的结合方法(SNF.CC)和加权相似性网络融合 (WSNF)。

我们以统一的输入和输出数据格式应用这些癌症亚型识别方法。分析癌症亚型的过程可以在标准工作流程中轻松进行。CancerSubtypes提供了最有用的特征选择方法和亚型验证方法,帮助用户专注于他们的癌症基因组数据,并且可以轻松地以可视化的方式比较和评估不同方法的结果。

2. 数据处理 # 安装CancerSubtypes包 devtools::install_github("taoshengxu/CancerSubtypes") # 加载TCGA数据 BiocManager::install("RTCGA") BiocManager::install("RTCGA.mRNA") ## (85.0 MB) library(CancerSubtypes) library("RTCGA.mRNA")

对于基本数据处理,CancerSubtypes提供了数据分布检查、数据插补和归一化以及特征选择的方法。CancerSubtypes包中有四种特征选择方法(方差-Var,中位数绝对偏差-MAD,COX模型,主成分分析-PCA)。所有数据处理方法都具有相同的输入和输出数据格式。

2.1 基本处理 2.1.1 通过检查数据分布来分析原始数据 ## 准备TCGA基因表达数据集进行分析。 rm(list = ls()) data(BRCA.mRNA) mRNA=t(as.matrix(BRCA.mRNA[,-1])) mRNA[1:5,1:5] colnames(mRNA)=BRCA.mRNA[,1] #基因名×样本名 mRNA[1:5,1:5] ## 观察数据集的平均值,方差和中位数绝对偏差分布,可以帮助用户获得数据的分布特征,例如,评估数据集是否符合正态分布。 data.checkDistribution(mRNA) #平均值、方差和中位数绝对偏差分布图

在这里插入图片描述

2.1.2 具有缺失值(NA)特征的数据插补

原始基因组数据集始终包含缺失的观察结果,尤其是在微阵列基因表达数据中。在极少数样本中移除所有缺少观测值的特征是不明智的,因为有用的信息将被丢弃。常用方法是为缺失的观测值插补适当的值。CancerSubtypes为基因组数据集集成了三种常见的插补方法。

table(is.na(mRNA)) index=which(is.na(mRNA)) res1=data.imputation(mRNA,fun="median") res2=data.imputation(mRNA,fun="mean") res3=data.imputation(mRNA,fun="microarray") 2.1.3 数据标准化 result1=data.normalization(mRNA,type="feature_Median",log2=FALSE) result2=data.normalization(mRNA,type="feature_zscore",log2=FALSE) 2.2 特征选择 2.2.1 基于最大方差的特征选择 ## 选取方差最大的前 1000 个特征。 data1=FSbyVar(mRNA, cut.type="topk",


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3