python

您所在的位置：网站首页 › recall的名词怎么写 › python

python

2024-06-22 03:10| 来源: 网络整理| 查看: 265

python - sklearn 计算召回率

因为最近写的分类模型需要性能评价，常用的分类性能评价有查准率、召回率、准确率、F1

分类问题的常用的包 sklearn ，下面对召回率所用的方法进行介绍

查准率请看另外一篇文章： sklearn 计算查准率

前提知识

对于我们的二分类问题，会有以下情况：

真正例（True Positive，TP）：真实类别为正例，预测类别为正例。假正例（False Positive，FP）：真实类别为负例，预测类别为正例。假负例（False Negative，FN）：真实类别为正例，预测类别为负例。真负例（True Negative，TN）：真实类别为负例，预测类别为负例。

然后可以构建混淆矩阵（Confusion Matrix）如下表所示。

真实类别预测类别预测类别正例负例正例TPFN负例FPTN

召回率，又称查全率（Recall，R）： R = T P / ( T P + F N ) R=TP/(TP+FN) R=TP/(TP+FN)

1、sklearn.metrics.recall_score()方法

方法说明：

sklearn.metrics.recall_score(y_true, y_pred, *, labels=None, pos_label=1,average='binary', sample_weight=None,zero_division="warn"):

参数介绍：

y_true：真实的标签，即数据集中真实的分类标签情况，是一个1维的数组

y_pred：预测标签，即模型预测的分类标签情况，是一个1维的数组

labels：可选参数，默认为None ，是一个一维的数组，二分类时，不需要用这个参数。

pos_label：字符串或者int类型，默认值是1，如果average='binary且数据是二分类，则需要报告的类，如果数据是多类或多标签的，这将被忽略；设置labels=[pos_label]和average != 'binary将只报告该标签的分数。

average：字符串类型，取值为 [None, ‘binary’ (default), ‘micro’, ‘macro’, ‘samples’, ‘weighted’]。默认为binary，给出正样本的准确率，也就是pos_label默认参数1时的准确率。

sample_weight：数组类型，样本的权重

zero_division：取值为 [“warn”, ‘0’ , ‘1’] ，设置存在零除法时返回的值，warn也相等于是0，但是会出现警告

2、sklearn.metrics.recall_score()的使用举例（二分类）

在二分类问题上，使用这个非常简单，因为方法中很多参数都是针对二分类默认的参数，不需要额外指定

例如：pos_label 默认为1呀（二分类正样本的值），average为二分类 binary

只需要传入预测的与真实的标签，即可求出准确率

from sklearn.metrics import recall_score pred = [0, 1, 0, 1] # 预测的值 target = [0, 1, 1, 0] # 真实的值 r = recall_score(pred, target) print(r) ===> 0.5

如果不是 0 1 的值，是其他二分类的值，那么就可以通过 labels、pos_label 来指定

labels = [3,4] # 二分类两个类别的值 pred = [3, 4, 3, 4] # 预测的值 target = [3, 4, 4, 3] # 真实的值 r = recall_score(pred, target , labels = labels , pos_label= 3) # pos_label指定正样本的值是多少 print(r) ===> 0.5 2、sklearn.metrics.recall_score() 的使用举例（多分类）

针对多分类问题，各个参数的传参：

labels ：需要是传入多分类的类别数组pos_label：该值会被忽略average：取值 ‘micro’, ‘macro’, ‘samples’, ‘weighted’sample_weight：权重

举例：

labels = [1, 2, 3, 4] # 有哪几类 pred = [1, 2, 3, 4, 2, 3, 4, 1] # 预测的值 target = [2, 3, 1, 4, 1, 4, 4, 1] # 真实的值 r = recall_score(pred, target, labels=labels, average="micro") print(r) r = recall_score(pred, target, labels=labels, average="macro") print(r) r = recall_score(pred, target, labels=labels, average="weighted") print(r) ===>0.375 ===>0.375 ===>0.375

这里主要的是 average 的不同，计算结果会有不同

macro：是先对每一个类统计指标值，然后在对所有类求算术平均值。micro：是对数据集中的每一个实例不分类别进行统计建立全局混淆矩阵，然后计算相应指标weightes：计算每个标签的指标，并找到它们的平均加权支持度samples：计算每个实例的指标，并找到它们的平均值

比较常用的是 macro 与 micro 这两种取值

1）macro 是先对每一个类统计指标值，然后利用下面的公式对所有类求算术平均值， M a c r o R = ( 1 / n ) ( R 1 + R 2 + R 3 + . . . . + R n ) MacroR=(1/n)(R1+R2+R3+....+Rn) MacroR=(1/n)(R1+R2+R3+....+Rn) 2）micro 是对数据集中的每一个实例不分类别进行统计建立全局混淆矩阵，然后计算相应指标 M i c r o R = （ T P 1 + T P 2 + T P 3 + . . . . T P n ） / ( （ T P 1 + T P 2 + T P 3 + . . . . T P n ） + （ F N 1 + F N 2 + F N 3 + . . . . F N n ） ) MicroR=（TP1+TP2+TP3+....TPn）/(（TP1+TP2+TP3+....TPn）+（FN1+FN2+FN3+....FNn）) MicroR=（TP1+TP2+TP3+....TPn）/(（TP1+TP2+TP3+....TPn）+（FN1+FN2+FN3+....FNn）) 根据不同的值，计算不同的 recall

【本文地址】

python

python

今日新闻

推荐新闻