2018.8.6 利用卡方检验选择变量阈值

您所在的位置:网站首页 卡方检验公式选择 2018.8.6 利用卡方检验选择变量阈值

2018.8.6 利用卡方检验选择变量阈值

2024-07-07 02:56| 来源: 网络整理| 查看: 265

                                 利用卡方检验选择变量阈值

目录

场景

原理

问题

实例

后语

场景

在规则制定时,面对连续型变量,往往需要选取一个阈值,用以界定好坏客户,比如:

                                                                   3个月内多头数大于等于10,拒绝。

这个10就是我们需要事先给定的一个值,那是根据什么来定10,而不是9,8,11,15等其他值。

原理

假定目前已经有一定的样本数据:

客户序号7天多头数1个月多头数3个月多头数是否坏客户1x_{1}y_{1}3是2x_{2}y_{2}2否...............mx_{m}y_{m}4是

根据“3个月多头数”、“是否坏客户”整理后如下:

3个月多头数好客户数量坏客户数量0g_{0}b_{0}1g_{1}b_{1}2g_{2}b_{2}.........ng_{n}b_{n}

现在我们可以设定一个值k∈(0,n),k为整数,将3个月多头数分成2个部分[0,k)和[k,n]。因此上表可以转换成2分表(如下表)。

3个月多头数好客户数量坏客户数量\left [ 0,k \right )            g_{0} + g_{1}+...+g_{k-1}                b_{0} + b_{1}+...+b_{k-1}\left [ k,n \right ]            g_{k} + g_{k+1}+...+g_{n}                b_{k} + b_{k+1}+...+b_{n}

这样,就可以通过卡方检验来测试:“3个月多头数(k临界值)”与“客户好坏”是否有关。

(关于卡方检验原理可参考http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C,其中的应用实例2——独立性检验比较容易理解)

(1)零假设H_{0}:“3个月多头数(k临界值)”与“客户好坏”无关。

(2)确认自由度(2-1)(2-1)=1,选择显著水平\alpha =0.05。由卡方分布表找到临界值3.84。

(3)求对应期望值。

(4)根据公式求卡方值:

                                                                              \chi ^{2}=\sum\frac{\left ( A-E \right )^{2}}{E}

(5)比较卡方值和临界值,当\chi ^{2}3.84时,拒绝零假设,即拒绝“3个月多头数(k临界值)”与“客户好坏”无关。

由此可推断“当3个月多头数被k分为2部分时,对客户是否好坏是有显著区分”,这样k值就可以作为拒绝客户的一个临界值。  

问题

虽然上面已经可以判定一个给定值k是否具有区分客户好坏能力(比如由业务经验,先设定k=10,通过上述卡方检验可推断10是有效的临界值),但是这个10是否是最优的临界值是无法判定的(比如当k=9的时候,可能会比k=10的时候更具有区分能力)。

于是问题由“判断一个给定的k值是否能有效区分好坏客户”转换为“如何找到最能区分好坏客户的k值”

回到这个二分表

3个月多头数好客户数量坏客户数量\left [ 0,k \right )            g_{0} + g_{1}+...+g_{k-1}                b_{0} + b_{1}+...+b_{k-1}\left [ k,n \right ]            g_{k} + g_{k+1}+...+g_{n}                b_{k} + b_{k+1}+...+b_{n}

实际上,可以表示为

3个月多头数好客户数量坏客户数量\left [ 0,k \right )                        G_{0k}(k)                           B_{0k}(k)\left [ k,n \right ]                        G_{kn}(k)                           B_{kn}(k)

G_{0k}(k)G_{kn}(k)B_{0k}(k)B_{kn}(k)都是关于k的函数。

同理,可以推出卡方值

                                                                                  \chi ^{2}=\sum\frac{\left ( A-E \right )^{2}}{E}

也是关于k的函数即

                                                                            \chi ^{2}=\sum\frac{\left ( A-E \right )^{2}}{E}=\chi ^{2}\left ( k \right )

于是有

k12...n-1\chi ^{2}\chi ^{2}\left ( 1 \right )\chi ^{2}\left ( 2 \right )         ...  \chi ^{2}\left ( n-1 \right )

\chi ^{2}取得最大值时,对应的k即为最优值。

通过折线图(横坐标为k,纵坐标为\chi ^{2}),就能轻易找到最优k值。

 

实例

链接:下载地址 密码:g3wk

A、B列为数据对于不同的k值,有不同的卡方值\chi ^{2}k=7时 实际值3个月多头数好客户数量坏客户数量总计[0,k)62606896949[k,20]34480424总计66047697373

计算出对应期望值

期望值3个月多头数好客户数量坏客户数量总计[0,k)6224.222976724.77702436949[k,20]379.777024344.22297572424总计66047697373

可求得对应卡方值

卡方值3个月多头数好客户数量坏客户数量总计[0,k)0.2056474311.7660541431.971701574[k,20]3.37038679128.9441279232.31451471总计3.57603422230.7101820634.28621628

于是对所有k,有

k12345...1819\chi ^{2}9.4931.1665.3578.671...0.70.58

对应折线图

图表结合可知,当k=4时,为最优临界值,此时可将规则设为:

                                                                   3个月内多头数大于等于4,拒绝

后语

卡方检验只是计算k的其中一种方法,卡方值也是其中一种指标,在实际应用中,还要考虑误杀率,漏杀率,准确率等指标。

此处不表!



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3