常用分类评估指标(二分类&多分类) |
您所在的位置:网站首页 › 星座情侣搭配指数表 › 常用分类评估指标(二分类&多分类) |
一直想写篇度量指标的文章,梳理一下这块的知识点,可能想了太多次,总以为自己已经写过了,今天看文章列表,竟然没有相关的内容,刚好最近在做多分类模型,借此机会整理一下。 混淆矩阵(confusion matrix)在介绍各种指标前,先介绍混淆矩阵,基本所有的评价指标都是基于混淆矩阵计算得来的。 混淆矩阵每一行代表数据的真实类别,每一列代表预测类别。 以下是一个三分类问题的混淆矩阵: 除了这四个最常用的指标,还有几个值得了解。 特异度(Specificity)/真阴性率(true negative rate,TNR) 和recall类似,它是负样本中被预测为负样本的比例。 TNR = TN/(TN+FP)误报率(False discovery rate, FDR) 预测为正的样本中,实际为负的样本所占比例。 FDR = FP/(FP+TP) = 1- Precision阴性预测值(Negative Predictive Value,NPV ) 预测为负的样本中负样本的比例。 NPV = TN/(TN+FN)kappa系数 Kappa系数是一个用于一致性检验的指标,也可以用于衡量分类的效果。对于分类问题,所谓一致性就是模型预测结果和实际分类结果是否一致。 kappa系数的提出也是因为准确率指标存在的问题,因此它能够惩罚模型的“偏向性”,根据kappa的计算公式(下图),越不平衡的混淆矩阵,Pe越高,kappa值就越低,正好能够给“偏向性”强的模型打低分。 kappa系数的取值为-1到1之间,通常大于0。可分为五组来表示不同级别的一致性:0.0~0.20极低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)。![]() 考虑到一个数据集中正负样本的比例可能随着时间(/阈值)的改变而发生变化,且实际数据集常存在样本分布不均衡的情况,因此又有一个新的指标被发明出来。 ROC曲线/AUC(Area Under the Curve,曲线下面积) ROC曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,曲线下面积越大,诊断准确性越高。![]() ![]() 以上的计算公式一般只适用于二分类模型,对于多分类模型的评价方法,通常是先将其转换为多个二分类模型,分别对其进行指标计算,然后使用一些规则来把这些指标汇总起来。 比如一个多分类模型的样本标签有A、B、C三类,则先把它看作三个二分类器,分类器1的标签为A,非A;分类器2的标签为B,非B;分类器3的标签为C,非C。对每个二分类器的评估我们已经知道了,但要评估分类器的总体功能,就需要考虑三个类别的综合预测性能。 下面有三种常用的汇总准则: Macro-average方法 对各个二分类器的评估指标求平均。该方法受样本量小的类别影响大。Weighted-average方法 对各个二分类器的评估指标求加权平均,权重为该类别在总样本中的占比。该方法受样本量大的类别影响大。Micro-average方法 把每个类别的TP, FP, FN先相加之后,在根据二分类的公式进行计算。参考链接: 二分类和多分类问题的评价指标总结 多分类模型Accuracy, Precision, Recall和F1-score的超级无敌深入探讨 详解多分类模型的Macro-F1/Precision/Recall计算过程 kappa系数简介 机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |