程序员学CFA

2024-07-13 18:24| 来源: 网络整理| 查看: 265

数量分析方法（六）假设检验假设检验的步骤假设检验的基本思想与步骤估计与假设检验的区别假设检验的基本思想假设检验的步骤假设检验的相关概念原假设与备择假设检验统计量及其分布显著性水平双尾检验与单尾检验p值第一类错误与第二类错误统计显著与经济显著正态总体的假设检验正态总体均值的检验单个正态总体均值的检验两个正态总体均值的检验正态总体方差的检验单个正态总体方差的检验两个正态总体方差的检验相关系数的假设检验参数检验与非参数检验

假设检验假设检验的步骤假设检验的基本思想与步骤

先从一个真实的故事出发，来体会假设检验的基本思想与步骤。

这个故事是关于假设检验如何被伟大的统计学家费舍尔提出的。在费舍尔就职于剑桥大学时，有个每周二下午喝下午茶的习惯。参与下午茶的不仅有数学家，还包括物理学家、化学家等。一个周二下午，一位女士参与了进来。这位女士提出了这样一个观点：一杯茶叶中，即便奶与茶的比例相同，先加茶还是先加奶，味道是完全不同的。这位女士的观点遭到诸位科学家的反对，因为根据科学理论，只要配比相同且充分溶解，味道不应有所不同。于是，科学家们有了这样一个原假设：该女士并不具备区分奶茶与茶奶的能力。

为了验证这个假设，科学家们就泡了第一杯茶，让这位女士来判断这杯茶是先加了奶还是先加了茶，结果这位女士答对了。然而，这一次试验并不能推翻原假设，因为及时靠蒙，该女士也有50%的概率猜对。于是，那个下午，科学家们让这位女士一共喝了八杯茶，该女士全部答对。八次全部蒙对的概率仅有0.58，无疑是个小概率事件。假设检验的基本思想就是小概率事件不会发生，当小概率事件发生时，我们更倾向于认为原假设是错误的。因此，科学家们拒绝了原假设，转而认为该女士具备区分奶茶与茶奶的能力。

这个下午过后，费舍尔回去就此事撰写了《科学实验设计》一书。该书由此事出发，探讨如何设计实验来判断女士的品茶能力是最科学的。该书在统计学历史上具有重要意义。不难发现，如果全部靠蒙，女士猜对先加奶还是先加茶的概率是服从二项分布的。于是可以根据实现给定的小概率α，来判断女士猜对的次数是否属于小概率。但是，假设检验的方法是有可能犯错误的，有可能女士没有这个能力，确实是蒙对了8次。

假设所有中国人的平均身高服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)，如何检验“中国人的平均身高不高于160厘米”的声称是否成立？

估计与假设检验的区别

假设检验与参数估计的思想是不同的。参数估计是指利用抽样数据对总体参数进行直接估计，并得出总体参数的具体估计值；而假设检验则分为假设与检验两步，先形成一个对总体参数的假设，然后再利用抽样数据判断这个假设是否成立。

例如，参数估计是通过抽样调查部分中国人身高，计算出样本均值 X ˉ \bar X Xˉ，并以此估计全体中国人平均身高 μ \mu μ；而假设检验则是先形成一个命题，如“中国人平均身高 μ \mu μ不高于160厘米”，然后通过抽样数据判断该命题是否成立。

假设检验的基本思想

如何检验上述命题是否成立呢？一个“笨”方法就是把所有中国人身高都量一遍，然后计算平均值，就可以准确判断命题是否成立了。显而易见，这个方法的成本太高，还是要运用抽样数据来判断。假设检验的基本思想是“小概率事件不会发生”。这是什么意思呢？假定抽样调查了1万个中国人，计算出来平均身高为180厘米。根据这组抽样数据，基本可以判断“中国人平均身高不高于160厘米”的命题是“错误”的。因为，如果中国人的平均身高真的低于160cm，抽样1万人的平均身高是180cm就应该是个小概率事件，而假设检验的基本思想是“小概率时间不会发生”，因此只能假设本身错了。

在上述过程中，我们假设抽样样本均值为180cm，这可以很显然地判断出命题不成立。然而，如果抽样样本的均值是161cm时，结论就没有那么显然了。161cm仅仅搞出命题中假设数据1cm，这1cm的差距完全有可能是抽样误差所导致的。在类似情况下，如何判断命题是否成立就必须利用到概率分布与显著性等其他相关信息。

假设检验的步骤建立需检验的假设。选择合适的检验统计量，并确定其服从的概率分布。选择判断假设是否成立的显著性水平。给出决策准则，即拒绝域的形式。收集数据，并计算检验统计量。做出判断。根据判断进行投资决策。假设检验的相关概念原假设与备择假设

假设检验的第一步就是建立假设。通常将被检验的假设称为原假设，记为 H 0 H_0 H0；当原假设 H 0 H_0 H0被拒绝时而接受的假设称为备择假设，记为 H α H_\alpha Hα或 H 1 H_1 H1。原假设与备择假设通常成对出现。上例中，原假设与备择假设可以用如下方式表示： H 0 : μ ≤ 160 v s H α : μ > 160 H_0:\mu\le160 \;vs \; H_\alpha:\mu \gt160 H0:μ≤160vsHα:μ>160 假设检验一般有两种结果：第一种是原假设“不正确”，称为拒绝原假设；第二种是原假设“正确”，称为无法拒绝原假设。

检验统计量及其分布

由抽样样本检验原假设通常是通过一个统计量来完成的，这个统计量称为检验统计量。检验统计量通常服从某个概率分布，于是可以通过计算检验统计量是否超过某一关键值来判断是否拒绝原假设。检验统计量常以下式的形式出现：检验统计量 = 样本统计量 − H α 成立时的总体参数样本统计量的标准误检验统计量=\frac {样本统计量-H_\alpha成立时的总体参数} {样本统计量的标准误} 检验统计量=样本统计量的标准误样本统计量−Hα成立时的总体参数如上例中，检验统计量就可以通过样本均值 X ˉ \bar X Xˉ来构建。由中心极限定理， X ˉ \bar X Xˉ服从正态分布 N ( μ , σ 2 / n ) N(\mu,\sigma^2/n) N(μ,σ2/n)，按照上式标准化后就服从标准正态分布。

显著性水平

有了检验统计量后，结合显著性水平就可以得到关键值及拒绝域。关键值是判断是否拒绝原假设的临界值。拒绝域是由原假设被拒绝的检验统计量所组成的区域。

在上例中，假设显著性水平为5%， X ˉ \bar X Xˉ标准化后服从标准正态分布，那么关键值就是1.65。

双尾检验与单尾检验

假设检验通常有三种基本形式：

H 0 : θ = θ 0 v s H α : θ ≠ θ 0 H_0:\theta=\theta_0 \; vs H_\alpha:\theta \not = \theta_0 H0:θ=θ0vsHα:θ=θ0 H 0 : θ ≤ θ 0 v s H α : θ > θ 0 H_0:\theta \le \theta_0 \; vs H_\alpha:\theta \gt \theta_0 H0:θ≤θ0vsHα:θ>θ0 H 0 : θ ≥ θ 0 v s H α : θ < θ 0 H_0:\theta \ge \theta_0 \; vs H_\alpha:\theta \lt \theta_0 H0:θ≥θ0vsHα:θ α p \gt \alpha p>α则无法拒绝原假设。

例如，在下图中，要进行显著性水平为5%的双尾检验。已知p值=2.14%，意味着左侧（右侧）对应的尾部面积为1.07%，即统计量的绝对值大于 z 2.5 % z_{2.5\%} z2.5%，应该要拒绝原假设。当然，也可以直接利用p值进行判断，p值=2.14% μ 0 H 0 : μ ≥ μ 0 v s H α : μ < μ 0 H_0:\mu=\mu_0 \; vs H_\alpha:\mu \not = \mu_0\\ H_0:\mu \le \mu_0 \; vs H_\alpha:\mu \gt \mu_0\\ H_0:\mu \ge \mu_0 \; vs H_\alpha:\mu \lt \mu_0 H0:μ=μ0vsHα:μ=μ0H0:μ≤μ0vsHα:μ>μ0H0:μ≥μ0vsHα:μ d 0 H_0:\mu_1-\mu_2=d_0 \; and \; H_\alpha:\mu_1-\mu_2 \not = d_0\\ H_0:\mu_1-\mu_2 \ge d_0 \; and \; H_\alpha:\mu_1-\mu_2 \lt d_0\\ H_0:\mu_1-\mu_2 \le d_0 \; and \; H_\alpha:\mu_1-\mu_2 \gt d_0 H0:μ1−μ2=d0andHα:μ1−μ2=d0H0:μ1−μ2≥d0andHα:μ1−μ2d0 其中， μ 1 \mu_1 μ1表示第一个总体的均值； μ 2 \mu_2 μ2表示第二个总体的均值。在选择检验统计量时，又要细分为两个情形。当两个总体的方差未知但假定相等时（ σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ12=σ22），采用t统计量，公示如下： t = ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) ( s p 2 n 1 + s p 2 n 2 ) 1 / 2 w h e r e s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 t=\frac {(\bar X_1 - \bar X_2)-(\mu_1-\mu_2)} {(\frac {s_p^2} {n_1} + \frac {s_p^2} {n_2})^{1/2}} \; where \; s_p^2=\frac {(n_1-1)s_1^2+(n_2-1)s_2^2} {n_1+n_2-2} t=(n1sp2+n2sp2)1/2(Xˉ1−Xˉ2)−(μ1−μ2)wheresp2=n1+n2−2(n1−1)s12+(n2−1)s22 其中，t统计量的自由度为 n 1 + n 2 − 2 n_1+n_2-2 n1+n2−2。当两个总体的方差未知但假定不相等时（ σ 1 2 ≠ σ 2 2 \sigma_1^2\not=\sigma_2^2 σ12=σ22），采用t统计量，公示如下： t = ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) ( s 1 2 n 1 + s 2 2 n 2 ) 1 / 2 w h e r e d f = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 + ( s 2 2 / n 2 ) 2 n 2 t=\frac {(\bar X_1 - \bar X_2)-(\mu_1-\mu_2)} {(\frac {s_1^2} {n_1} + \frac {s_2^2} {n_2})^{1/2}} \; where \; df=\frac {(\frac {s_1^2} {n_1}+\frac {s_2^2} {n_2})^2} {\frac {(s_1^2/n_1)^2} {n_1}+\frac {(s_2^2/n_2)^2} {n_2}} t=(n1s12+n2s22)1/2(Xˉ1−Xˉ2)−(μ1−μ2)wheredf=n1(s12/n1)2+n2(s22/n2)2(n1s12+n2s22)2 其中，t统计量的自由度df如上式所述。

两个总体相互不独立当两个总体相互不独立时，意味着两个总体的样本存在某种关联。此时做均值检验时必须采取成对检验，原假设与备择假设如下： H 0 : μ d = μ 0 v s H α : μ d ≠ μ 0 H 0 : μ d ≤ μ 0 v s H α : μ d > μ 0 H 0 : μ d ≥ μ 0 v s H α : μ d < μ 0 H_0:\mu_d=\mu_0 \; vs \; H_\alpha:\mu_d \not = \mu_0\\ H_0:\mu_d \le \mu_0 \; vs \; H_\alpha:\mu_d \gt \mu_0\\ H_0:\mu_d \ge \mu_0 \; vs \; H_\alpha:\mu_d \lt \mu_0 H0:μd=μ0vsHα:μd=μ0H0:μd≤μ0vsHα:μd>μ0H0:μd≥μ0vsHα:μd σ 0 H_0:\sigma=\sigma_0 \; and \; H_\alpha:\sigma \not = \sigma_0\\ H_0:\sigma \ge \sigma_0 \; and \; H_\alpha:\sigma \lt \sigma_0\\ H_0:\sigma \le \sigma_0 \; and \; H_\alpha:\sigma \gt \sigma_0 H0:σ=σ0andHα:σ=σ0H0:σ≥σ0andHα:σσ0 在此情形下，应采用卡方统计量，其公式如下： χ n − 1 2 = ( n − 1 ) s 2 σ 0 2 \chi_{n-1}^2=\frac {(n-1)s^2} {\sigma_0^2} χn−12=σ02(n−1)s2 其中， χ n − 1 2 \chi_{n-1}^2 χn−12表示卡方统计量；自由度为n-1。

两个正态总体方差的检验

当检验两个不同总体方差是否相等时，原假设与备择假设为： H 0 : σ 1 = σ 2 a n d H α : σ 1 ≠ σ 2 H_0:\sigma_1=\sigma_2 \; and \; H_\alpha:\sigma_1 \not = \sigma_2 H0:σ1=σ2andHα:σ1=σ2 此情形下要使用F分布，其公式如下： F = s 1 2 s 2 2 w i t h d f o f ( n 1 − 1 , n 2 − 1 ) F=\frac {s_1^2} {s_2^2} \; with \; df \; of \; (n_1-1,n_2-1) F=s22s12withdfof(n1−1,n2−1) 其中，F分布自由度为 d f df df； n 1 n_1 n1表示来自第一个总体抽样的样本容量； n 2 n_2 n2表示来自第二个总体抽样的样本容量； s 1 2 s_1^2 s12表示来自第一个总体抽样的样本方差； s 2 2 s_2^2 s22表示来自第二个总体抽样的样本方差。一般情况下，将较大的样本方差放在分子上，即 s 1 2 > s 2 2 s_1^2>s_2^2 s12>s22。

均值检验：

不同情形检验统计量服从分布单个正态总体，方差已知 z = X ˉ − μ 0 σ n z=\frac {\bar X - \mu_0} {\frac {\sigma} {\sqrt n}} z=n σXˉ−μ0 N ( 0 , 1 ) N(0,1) N(0,1)单个正态总体，方差未知 t n − 1 = X ˉ − μ 0 s n t_{n-1}=\frac {\bar X-\mu_0} {\frac {s} {\sqrt n}} tn−1=n sXˉ−μ0 t ( n − 1 ) t(n-1) t(n−1)两个正态总体，独立样本，方差未知但相等 t = ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) ( s p 2 n 1 + s p 2 n 2 ) 1 / 2 t=\frac {(\bar X_1 - \bar X_2)-(\mu_1-\mu_2)} {(\frac {s_p^2} {n_1} + \frac {s_p^2} {n_2})^{1/2}} t=(n1sp2+n2sp2)1/2(Xˉ1−Xˉ2)−(μ1−μ2) t ( n 1 + n 2 − 2 ) t(n_1+n_2-2) t(n1+n2−2)两个正态总体，独立样本，方差未知但不相等 t = ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) ( s 1 2 n 1 + s 2 2 n 2 ) 1 / 2 t=\frac {(\bar X_1 - \bar X_2)-(\mu_1-\mu_2)} {(\frac {s_1^2} {n_1} + \frac {s_2^2} {n_2})^{1/2}} t=(n1s12+n2s22)1/2(Xˉ1−Xˉ2)−(μ1−μ2) t ( ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 + ( s 2 2 / n 2 ) 2 n 2 ) t(\frac {(\frac {s_1^2} {n_1}+\frac {s_2^2} {n_2})^2} {\frac {(s_1^2/n_1)^2} {n_1}+\frac {(s_2^2/n_2)^2} {n_2}}) t(n1(s12/n1)2+n2(s22/n2)2(n1s12+n2s22)2)两个正态总体，不独立样本，成对检验 t = d ˉ − μ d 0 s d ˉ t=\frac {\bar d-\mu_{d_0}} {s_{\bar d}} t=sdˉdˉ−μd0 t ( n − 1 ) t(n-1) t(n−1)

方差检验：

不同情形检验统计量服从分布单个正态总体 χ n − 1 2 = ( n − 1 ) s 2 σ 0 2 \chi_{n-1}^2=\frac {(n-1)s^2} {\sigma_0^2} χn−12=σ02(n−1)s2 χ n − 1 2 \chi_{n-1}^2 χn−12两个正态总体 F = s 1 2 s 2 2 F=\frac {s_1^2} {s_2^2} F=s22s12 F ( n 1 − 1 , n 2 − 1 ) F(n_1-1,n_2-1) F(n1−1,n2−1) 相关系数的假设检验

检验相关系数的原假设与备择假设如下：原假设 H 0 : ρ = 0 备择假设 H α : ρ ≠ 0 原假设 \; H_0:\rho=0\\ 备择假设 \; H_\alpha:\rho \not = 0 原假设H0:ρ=0备择假设Hα:ρ=0 相关系数检验选取的统计量服从t分布，自由度为n-2，其公式为： t = r n − 2 1 − r 2 t=\frac {r\sqrt{n-2}} {\sqrt {1-r^2}} t=1−r2 rn−2 其中，r为样本相关系数；n为样本容量；n-2为自由度。

参数检验与非参数检验

按照假设的对象，假设检验可以分为参数检验与非参数检验两种。到目前为止，介绍的检验都是参数检验，如z检验、t检验、F检验等。

参数检验的重要特征有以下两项。

参数检验都与总体参数相关。参数检验一般事先假定总体服从某个特定分布。

然而，在有些情形下，关注的不是总体分布的参数，而是基于总体分布的形式建立假设检验。这就需要用到非参数检验，非参数检验一般适用于以下三种情形。

总体分布未知，或样本数据并不满足服从某个特定分布。按照等级分类的数据。假设不涉及总体参数。

【本文地址】

程序员学CFA

程序员学CFA

今日新闻

推荐新闻