ROC曲线不用愁,四种R包教你一步搞定!

您所在的位置:网站首页 多指标联合诊断指标roc曲线下面积反而小 ROC曲线不用愁,四种R包教你一步搞定!

ROC曲线不用愁,四种R包教你一步搞定!

#ROC曲线不用愁,四种R包教你一步搞定!| 来源: 网络整理| 查看: 265

导语

GUIDE ╲

前面我们介绍了一个对有害同义突变预测的方法PrDSM,可以发现,在对模型的分析中,大量的使用ROC对模型进行评估,今天我们就来介绍一下ROC的相关内容和两种ROC绘图方法:pROC、plotROC、ggROC和ROCR。

ROC介绍

ROC曲线是受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是一个反映二元分类器系统在其识别阈值变化时的诊断能力的图形。

ROC曲线是通过绘制真阳性率(TPR)与假阳性率(FPR)在不同阈值设置下的曲线。在机器学习中,真阳性率也被称为灵敏度、回忆率或检出率。假阳性率也称为误报率,可以计算为(1 -特异度)。ROC曲线也可以被认为是决策规则的Type I Error 的函数(当性能仅从总体的一个样本中计算时,它可以被认为是这些量的估计值)。因此ROC曲线是敏感度或召回率作为降噪的函数。一般情况下,如果真阳性率和假阳性率分布已知,可以通过对y轴上的真阳性率和x轴上的假阳性率绘制的累积分布函数(概率分布下的面积,从-∞到判别阈值)来生成ROC曲线,因此ROC图有时被称为敏感性vs(1−特异性)图。

考虑一个两类预测问题(二元分类),其中结果被标记为正(p)或负(n)。一个二元分类器有四种可能的结果。①如果预测的结果是p,实际值也是p,则称为真正(true positive, TP)。②如果预测的结果是p,实际值为n,则称为假阳性(FP)。③当预测结果与实际值均为n时,是真阴性(TN)。④当预测结果为n而实际值为p时,是假阴性(FN)。

下图所示各个指标及计算公式:

最好的预测方法是在ROC空间的左上角或坐标(0,1)处找到一个点,表示100%的敏感性(无假阴性)和100%的特异性(无假阳性)。(0,1)点也被称为完美分类。所以ROC曲线越靠近左上角,说明该方法分类效果越好。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其假正例和假反例总数最少。可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中,直观地鉴别优劣,靠近左上角的ROC曲所代表的学习器准确性最高。

AUC是衡量学习器优劣的一种性能指标,为ROC曲线下与坐标轴围成的面积。其意义是:①因为是在1x1的方格里求面积,AUC必在0~1之间。②假设阈值以上是阳性,以下是阴性;③若随机抽取一个阳性样本和一个阴性样本,分类器正确判断阳性样本的值高于阴性样本的概率 = AUC 。④AUC值越大的分类器,正确率越高。

R包介绍

01

R包pROC

pROC是一个用于显示、平滑和比较ROC曲线的工具。(部分)曲线下面积AUC(pAUC)可以通过基于U-statistics或bootstrap的统计检验进行比较。可以计算(p)AUC或ROC曲线的置信区间。

install.packages("pROC") library(pROC) data(aSAH) #该数据集总结了113例动脉瘤性蛛网膜下腔出血的临床和实验室变量。

1.

(1)建立ROC对象并计算AUC

roc1


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3