2018.8.6 利用卡方检验选择变量阈值

您所在的位置：网站首页 › 卡方检验公式选择 › 2018.8.6 利用卡方检验选择变量阈值

2018.8.6 利用卡方检验选择变量阈值

2024-07-07 02:56| 来源: 网络整理| 查看: 265

利用卡方检验选择变量阈值

场景

原理

问题

实例

后语

场景

在规则制定时，面对连续型变量，往往需要选取一个阈值，用以界定好坏客户，比如：

3个月内多头数大于等于10，拒绝。

这个10就是我们需要事先给定的一个值，那是根据什么来定10，而不是9,8,11,15等其他值。

原理

假定目前已经有一定的样本数据：

客户序号7天多头数1个月多头数3个月多头数是否坏客户1 $x_{1}$ $y_{1}$ 3是2 $x_{2}$ $y_{2}$ 2否...............m $x_{m}$ $y_{m}$ 4是

根据“3个月多头数”、“是否坏客户”整理后如下：

3个月多头数好客户数量坏客户数量0 $g_{0}$ $b_{0}$ 1 $g_{1}$ $b_{1}$ 2 $g_{2}$ $b_{2}$ .........n $g_{n}$ $b_{n}$

现在我们可以设定一个值k∈(0,n)，k为整数，将3个月多头数分成2个部分[0,k)和[k,n]。因此上表可以转换成2分表（如下表）。

3个月多头数好客户数量坏客户数量 $\left [ 0,k \right )$ $g_{0} + g_{1}+...+g_{k-1}$ $b_{0} + b_{1}+...+b_{k-1}$ $\left [ k,n \right ]$ $g_{k} + g_{k+1}+...+g_{n}$ $b_{k} + b_{k+1}+...+b_{n}$

这样，就可以通过卡方检验来测试：“3个月多头数（k临界值）”与“客户好坏”是否有关。

（关于卡方检验原理可参考http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C，其中的应用实例2——独立性检验比较容易理解）

（1）零假设 $H_{0}$ ：“3个月多头数（k临界值）”与“客户好坏”无关。

（2）确认自由度 $(2-1)(2-1)=1$ ，选择显著水平 $\alpha =0.05$ 。由卡方分布表找到临界值3.84。

（3）求对应期望值。

（4）根据公式求卡方值：

$\chi ^{2}=\sum\frac{\left ( A-E \right )^{2}}{E}$

（5）比较卡方值和临界值，当 $\chi ^{2}3.84$ 时，拒绝零假设，即拒绝“3个月多头数（k临界值）”与“客户好坏”无关。

由此可推断“当3个月多头数被k分为2部分时，对客户是否好坏是有显著区分”，这样k值就可以作为拒绝客户的一个临界值。

问题

虽然上面已经可以判定一个给定值k是否具有区分客户好坏能力（比如由业务经验，先设定k=10，通过上述卡方检验可推断10是有效的临界值），但是这个10是否是最优的临界值是无法判定的（比如当k=9的时候，可能会比k=10的时候更具有区分能力）。

于是问题由“判断一个给定的k值是否能有效区分好坏客户”转换为“如何找到最能区分好坏客户的k值”

回到这个二分表

实际上，可以表示为

3个月多头数好客户数量坏客户数量 $\left [ 0,k \right )$ $G_{0k}(k)$ $B_{0k}(k)$ $\left [ k,n \right ]$ $G_{kn}(k)$ $B_{kn}(k)$

$G_{0k}(k)$ 、 $G_{kn}(k)$ 、 $B_{0k}(k)$ 、 $B_{kn}(k)$ 都是关于 $k$ 的函数。

同理，可以推出卡方值

$\chi ^{2}=\sum\frac{\left ( A-E \right )^{2}}{E}$

也是关于 $k$ 的函数即

$\chi ^{2}=\sum\frac{\left ( A-E \right )^{2}}{E}=\chi ^{2}\left ( k \right )$

于是有

$k$ 12... $n-1$ $\chi ^{2}$ $\chi ^{2}\left ( 1 \right )$ $\chi ^{2}\left ( 2 \right )$ ... $\chi ^{2}\left ( n-1 \right )$

当 $\chi ^{2}$ 取得最大值时，对应的 $k$ 即为最优值。

通过折线图（横坐标为 $k$ ，纵坐标为 $\chi ^{2}$ ），就能轻易找到最优k值。

实例

链接：下载地址密码：g3wk

A、B列为数据对于不同的 $k$ 值，有不同的卡方值 $\chi ^{2}$ 如 $k$ =7时实际值3个月多头数好客户数量坏客户数量总计[0,k)62606896949[k,20]34480424总计66047697373

计算出对应期望值

期望值3个月多头数好客户数量坏客户数量总计[0,k)6224.222976724.77702436949[k,20]379.777024344.22297572424总计66047697373

可求得对应卡方值

卡方值3个月多头数好客户数量坏客户数量总计[0,k)0.2056474311.7660541431.971701574[k,20]3.37038679128.9441279232.31451471总计3.57603422230.7101820634.28621628

于是对所有 $k$ ，有

$k$ 12345...1819 $\chi ^{2}$ 9.4931.1665.3578.671...0.70.58

对应折线图

图表结合可知，当 $k$ =4时，为最优临界值，此时可将规则设为：

3个月内多头数大于等于4，拒绝

后语

卡方检验只是计算k的其中一种方法，卡方值也是其中一种指标，在实际应用中，还要考虑误杀率，漏杀率，准确率等指标。

此处不表！

【本文地址】

2018.8.6 利用卡方检验选择变量阈值

2018.8.6 利用卡方检验选择变量阈值

今日新闻

推荐新闻