2018.8.6 利用卡方检验选择变量阈值 |
您所在的位置:网站首页 › 卡方检验公式选择 › 2018.8.6 利用卡方检验选择变量阈值 |
利用卡方检验选择变量阈值
目录 场景 原理 问题 实例 后语 场景在规则制定时,面对连续型变量,往往需要选取一个阈值,用以界定好坏客户,比如: 3个月内多头数大于等于10,拒绝。 这个10就是我们需要事先给定的一个值,那是根据什么来定10,而不是9,8,11,15等其他值。 原理假定目前已经有一定的样本数据: 客户序号7天多头数1个月多头数3个月多头数是否坏客户1根据“3个月多头数”、“是否坏客户”整理后如下: 3个月多头数好客户数量坏客户数量0现在我们可以设定一个值k∈(0,n),k为整数,将3个月多头数分成2个部分[0,k)和[k,n]。因此上表可以转换成2分表(如下表)。 3个月多头数好客户数量坏客户数量这样,就可以通过卡方检验来测试:“3个月多头数(k临界值)”与“客户好坏”是否有关。 (关于卡方检验原理可参考http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C,其中的应用实例2——独立性检验比较容易理解) (1)零假设 (2)确认自由度 (3)求对应期望值。 (4)根据公式求卡方值: (5)比较卡方值和临界值,当 由此可推断“当3个月多头数被k分为2部分时,对客户是否好坏是有显著区分”,这样k值就可以作为拒绝客户的一个临界值。 问题虽然上面已经可以判定一个给定值k是否具有区分客户好坏能力(比如由业务经验,先设定k=10,通过上述卡方检验可推断10是有效的临界值),但是这个10是否是最优的临界值是无法判定的(比如当k=9的时候,可能会比k=10的时候更具有区分能力)。 于是问题由“判断一个给定的k值是否能有效区分好坏客户”转换为“如何找到最能区分好坏客户的k值” 回到这个二分表 3个月多头数好客户数量坏客户数量实际上,可以表示为 3个月多头数好客户数量坏客户数量
同理,可以推出卡方值 也是关于 于是有 当 通过折线图(横坐标为 实例 链接:下载地址 密码:g3wk A、B列为数据对于不同的计算出对应期望值 期望值3个月多头数好客户数量坏客户数量总计[0,k)6224.222976724.77702436949[k,20]379.777024344.22297572424总计66047697373可求得对应卡方值 卡方值3个月多头数好客户数量坏客户数量总计[0,k)0.2056474311.7660541431.971701574[k,20]3.37038679128.9441279232.31451471总计3.57603422230.7101820634.28621628于是对所有 对应折线图 图表结合可知,当 3个月内多头数大于等于4,拒绝 后语卡方检验只是计算k的其中一种方法,卡方值也是其中一种指标,在实际应用中,还要考虑误杀率,漏杀率,准确率等指标。 此处不表! |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |