应该用卡方、校正卡方还是Fisher?

您所在的位置:网站首页 卡方检验校正公式的适用条件 应该用卡方、校正卡方还是Fisher?

应该用卡方、校正卡方还是Fisher?

2023-11-06 17:46| 来源: 网络整理| 查看: 265

(答案:是的,这一点读者可以试着动手计算一下。)

(另一点,两者比较,反而是在样本量小的时候差异更大,这个差异原因我们稍后还会谈到。)

(所以,在这一点上,统计人员的共识就比较重要了,如果你家的选择标准是40,我家的选择标准是42,在样本量是41、42这种情况下,得到的卡方值和P值就会有较大的差异!)

那下面我们再来看一下Fisher确切概率法。

其实这个名字就说明了一切了!我是确切概率哦~你们不确切的,统统向我看齐!对,就这个意思!

所以根据名字就可以安心的下结论了,一切与Fisher不一致的,都以Fisher为准!

那为什么大家通常还是要用卡方呢?

Fisher的精准,在于它穷举所有可能出现的情况,并根据各种情况出现的概率,来确定某实际情况出现的概率以及小于该概率的情况的概率之和(即P值的定义),得到最后的Fisher的P值。

它是穷举的,考虑所有的情况,无一遗漏,所以,原则上来讲,它是不会出错误的!

大家普遍的使用的卡方检验,也是上世纪IT技术落后时的产物了(落后,有时候不是件坏事啊!正因为有了IT技术的落后,才激发统计学家们发挥极大的聪明才智来弥补这个缺陷啊!)。

这与本公众号上一篇文章提到的通过单变量分析来筛选进入回归模型中的变量是有些类似的。

前面提到过,Fisher是穷举,40以下的样本量,在四格表中出现的情况,动动手指脚趾,还是可以数的过来的,但如果是上万的样本量,那最终可能出现的情况可是指数级增长啊!这在当年的电脑上几乎也是不可能实现的。何况,发明卡方的时候,还没有电脑呢(我没验证过哦)!

所以,统计学家们就开发了卡方分布,来模拟可能出现的数据分布情况。这是一种抽象,就像我们用正态分布,T分布来模拟常见的数值型分布一样。

于是,我们有了卡方分布,有了对应的自由度,用不着穷举所有情况了,我们就已经可以猜出这些情况的分布是个什么样子!所以,有了卡方,轻轻松松就可以避免Fisher复杂的穷举过程,迅速得到结论!

虽然卡方在时间长度和计算难度上进行了极大的改进,但毕竟还是有问题的,就是样本量较少的时候,数据并不呈卡方分布!所以,后续不得已,又衍生了校正卡方,校正卡方也解决不了的,就最终还是回到了Fisher进行解决。

以现在的IT技术来看,哪怕上万的样本量,算个Fisher也不过秒秒钟的事儿了!所以,如果真让你选择的话?你会选什么呢?

实际上,Fisher使用三种场景,1)N



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3