第十二章多个比率的比较、独立性及拟合优度检验

您所在的位置：网站首页 › 独立性检验的临界值表怎么确定 › 第十二章多个比率的比较、独立性及拟合优度检验

第十二章多个比率的比较、独立性及拟合优度检验

2024-06-06 10:51| 来源: 网络整理| 查看: 265

参考书目为安德森的《商务与经济统计》，以下为个人的学习总结，如果有错误欢迎指正。有需要本书pdf的，链接在本文末尾。（仅限个人学习使用，请勿牟利）

前面介绍了一个或两个总体的总体均值、比率和方差的假设检验的统计推断。接下来介绍另外三种假设检验的方法。帮助我们对总体进行统计推断。

12.1 三个或多个总体比率的相等性的检验

针对多个总体比率 $p_1、p_2、p_3\cdots p_k$ 假设： $H_0:p_1=p_2=\cdots=p_k$ $H_a:所有总体比率不全相等$ 如果根据样本数据和 $\chi^2$ 检验计算结果表明不能拒绝 $H_0$ 则我们认为k个总体比率有差异。

举例：调查不同汽车的汽车品牌忠诚度（再次购买的比率）。

假设： $H_0:p_1=p_2=p_3$ $H_a:所有总体比率不全相等$ 已知： $n_1=125 n_2=200 n_3=175$

image

另外在500人有312人对自己的品牌有忠诚度，312/500=0.624；那么我们可以算出每个汽车车主还会再次购买该品牌的期望频数，即 $0.624n_i$ ，从而得到下面的表。

image

检验统计量 $\chi^2$ ： $\chi^2=\sum\limits_{i} \sum\limits_{j} \frac{(f_{ij}-e_{ij})^2}{e_{ij}}$ 式子中， $f_{ij}$ 为第 $i$ 行第 $j$ 列的单元格的观察频数； $e_{ij}$ 代表在假定 $H_0$ 为真时的第 $i$ 行和第 $j$ 列的单元格的期望频数。涉及k个总体比率相等性的 $\chi^2$ 检验中，上述检验统计量服从自由度为k-1的 $\chi^2$ 分布，并且要求每个 $e_{ij}$ 都大于等于5。

根据公式，我们进行计算，如下图所示。得到 $\chi^2=7.89$

image

由于我们假定的时 $H_0:p_1=p_2=p_3$ ，所以观察频数 $f_{ij}$ 与期望频数 $e_{ij}$ 应该是一致的，那么在检验统计量 $\chi^2$ 计算中 $(f_{ij}-e_{ij})^2$ 应该较小，且此时 $H_0$ 不能被拒绝；另一方面，如果 $(f_{ij}-e_{ij})^2$ 较大，则 $H_0$ 可能会被拒绝。所以说总体比率相等性的 $\chi^2$ 检验永远是一个上侧检验。

通过excel的计算，我们知道当 $\chi^2=7.89$ ，自由度为2时的上侧面积即p-值=0.0194则拒绝 $H_0$

总结：对于 $k \geq 3$ 个总体，总体比率相等性的 $\chi^2$ 检验的一般步骤如下：

image

多重比较方法：

首先，我们取每一对总体的样本比率之差的绝对值。即 $|\bar p_1-\bar p_2|$ 、 $|\bar p_1-\bar p_3|$ 和 $|\bar p_2-\bar p_3|$ 。 k个总体比率的Marascuilo成对比较方法的临界值: $CV_{ij}=\sqrt{\chi_{\alpha}^2}\sqrt{\frac{\bar p_i(1-\bar p_i)}{n_i}+\frac{\bar p_j(1-\bar p_j)}{n_j}}$ 其中 $\chi_{\alpha}^2$ 为显著水平为 $\alpha$ 且自由度为k-1的 $\chi_{\alpha}^2$ 值； $\bar p_i$ 和 $\bar p_j$ 总体为i和j的样本比率， $n_i$ 和 $n_j$ 为样本容量。将三个样本比率代入得到 $CV_{12}=0.138$ 、 $CV_{13}=0.1379$ 和 $CV_{23}=0.1198$ 进行比较，任何成对样本比率之差的绝对值 $|\bar p_i-\bar p_j|$ 超过其对应的临界值 $CV_{ij}$ ，则在显著水平0.05之下，成对的差是显著的，此时我们得出相应的两个总体比率不同。

image 从上图所示，我们只能得到， $\bar p_3$ 明显大于 $\bar p_1$ 。而 $\bar p_2$ 的值分别和 $\bar p_1$ 以及 $\bar p_3$ 都没有显著差异。

总结：

在前面介绍的使用标准正态分布和检验统计量z来比较两个总体比率的假设检验，本节使用 $\chi^2$ 检验也可用于两总体比率相等的假设检验。两种方法结果相同，且 $\chi^2$ 的数值时 $z$ 的数值的平方。区别在于 $\chi^2$ 检验只能用于相等性检验，但总体可以来源于3个及以上。在k个总体中，每个车主有两种结果：“是”、“否”。每个总体服从二项分布。当k个总体中每一个有三个或更多种回答时， $\chi^2$ 方法有拓展应用，此时每一个总体服从多项分布。 $\chi^2$ 计算的期望频数 $e_{ij}$ 以及检验统计量 $\chi^2$ 的计算与上述相同，不同的是原假设为对于所有总体回答变量的多项分布是相同的。k个总体中每一个都有r种回答，则检验统计量 $\chi^2$ 的自由度为 $(r-1)(k-1)$ 12.2 独立性检验

$\chi^2$ 检验的一个重要应用是利用样本数据检验两个分类变量的独立性，称作独立性检验（test of independence）。

举例：抽取200名饮酒者组成样本，看他们对三种类型的啤酒偏好程度。研究问题是：啤酒的偏好是否与饮酒者性别独立。

独立性检验的假设： $H_0$ :啤酒偏好与饮酒者性别独立 $H_a$ :啤酒偏好与饮酒者性别不独立。数据如下图所示：

image

将性别作为解释变量，（因为想探究性别对啤酒偏好的影响）。

三种类型啤酒的样本比率或百分比如下：

image

首先计算 $e_{ij}=\frac{第i行合计数 \times 第j列的合计数}{样本容量}$ 得到下表

image

按照公式计算 $\chi^2$ ： $\chi^2=\sum\limits_{i} \sum\limits_{j} \frac{(f_{ij}-e_{ij})^2}{e_{ij}}$ 对于r行c列的表， $\chi^2$ 的自由度为 $(r-1)\times(c-1)$ ，且期望频数都大于等于5。

下面是计算过程：

image $\chi^2=6.45$ 在自由度为2的上侧面积即p值为0.0398，所以拒绝 $H_0$

使用临界值法的话，可以计算 $\alpha=0.05$ 且自由度为2时 $\chi^2$ 的临界值为5.991，如果 $\chi^2$ 大于5.991则拒绝 $H_0$

对于不同性别对啤酒的偏爱如图所示：

image

总结：

image

12.3 拟合优度检验

本节，我们使用 $\chi^2$ 来确定被抽样的总体是否符合某个特殊的概率分布。首先考虑总体服从一个历史的多项概率分布情形，并使用拟合优度检验来确定样本数据的总体分布在与历史的分布相比较中，是否存在改变。然后考虑假设总体服从正态概率分布的情形，我们利用分布拟合检验来确定样本数据是否显示与正态概率分布的假设是适当还是不适当。这两个检验都称作拟合优度检验。

12.3.1 多项概率分布

多项概率分布，总体中每个个体都被分到三个或多个类别中的一个。

举例：市场调研公司调查三个公司的市场份额，在过去一年中份额为： $p_A=0.3$ 、 $p_B=0.5$ 和 $p_c=0.2$ ；C公司有了新产品，想知道新产品上线是否对市场份额产生影响。假设c公司新产品上市后的市场占有率： $H_0$ : $p_A=0.3$ , $p_B=0.5$ , $p_C=0.2$ $H_a$ :总体比率不是 $p_A=0.3$ , $p_B=0.5$ , $p_C=0.2$ 现取样本n=200得到观察频数如图所示：

image 再计算期望频数：

image 计算拟合优度的检验统计量： $\chi^2=\sum \limits_{i=1}^k \frac{(f_i-e_i)^2}{e_i}$ $f_i$ 为第 $i$ 类的观察频数； $e_i$ 为第 $i$ 类的期望频数； $k$ 为类别个数注意：当所有类别的期望频数都大于等于5时，检验统计量服从自由度为 $k-1$ 的 $\chi^2$ 分布。

我们令显著水平 $\alpha=0.05$ ，经过下面的计算过程得到 $\chi^2=7.34$