数理统计复习笔记六

您所在的位置:网站首页 离散总体的分布拟合检验 数理统计复习笔记六

数理统计复习笔记六

2024-05-24 12:06| 来源: 网络整理| 查看: 265

一、分类数据的 χ 2 \chi^2 χ2拟合优度检验 1.1 一般情形下的检验问题

根据某项指标,总体被分为 r r r类: A 1 , ⋯   , A r A_1,\cdots,A_r A1​,⋯,Ar​。此时我们最关心的是关于各类所占的比例的假设 H 0 : 第 i 类 A i 所 占 的 比 例 为 p i , i = 1 , ⋯   , r (1) H_0:第i类A_i所占的比例为p_i,i=1,\cdots,r\tag1 H0​:第i类Ai​所占的比例为pi​,i=1,⋯,r(1) 其中, ∑ i = 1 r p i = 1 \sum\limits_{i=1}^rp_i=1 i=1∑r​pi​=1。

记 X 1 , ⋯   , X n X_1,\cdots,X_n X1​,⋯,Xn​为从此总体抽出的 n n n个 I I D IID IID总体,且以 n i n_i ni​记这 n n n个样本中属于 A i A_i Ai​的样本个数。当 H 0 H_0 H0​成立时,在 n n n个样本中属于 A i A_i Ai​类的理论个数或期望个数为 n p i np_i npi​,而我们实际观测到的值为 n i n_i ni​,故当 H 0 H_0 H0​成立时, n i n_i ni​与 n p i np_i npi​应相差不大。于是,可以用统计量 χ 2 = ∑ i = 1 r ( n i − n p i ) 2 n p i (2) \chi^2=\sum_{i=1}^r\frac{(n_i-np_i)^2}{np_i}\tag2 χ2=i=1∑r​npi​(ni​−npi​)2​(2)来衡量理论个数与实际观测值之间的差别,并且其拒绝域为 { χ 2 ≥ c } \{\chi^2\ge c\} {χ2≥c}

1.2 定理

为了控制上述检验犯第一类错误的概率,我们必须知道此检验统计量的零分布,为此有以下定理:

在 H 0 H_0 H0​成立且 p i p_i pi​均已知时,我们有 χ 2 → χ 2 ( r − 1 ) (3) \chi^2\to\chi^2(r-1)\tag3 χ2→χ2(r−1)(3)

所以可以得到拒绝域为 W = { χ 2 ≥ χ α 2 ( r − 1 ) } (4) W=\{\chi^2\ge\chi^2_\alpha(r-1)\}\tag4 W={χ2≥χα2​(r−1)}(4)

二、关于分布的假设 2.1 完全已知的分布

对于一般的分布假设 H 0 : F ( x ) ≡ F 0 ( x ) (5) H_0:F(x)\equiv F_0(x)\tag5 H0​:F(x)≡F0​(x)(5) 其中, F 0 ( x ) F_0(x) F0​(x)为一个完全已知的分布函数(形式和参数均已知)

此时,可以把 ( − ∞ , ∞ ) (-\infty, \infty) (−∞,∞)(或样本空间)分成 r r r个互不相交的区间: ( − ∞ , ∞ ) = ⋃ i = 1 r I i = ( − ∞ , a 1 ) ∪ [ a 1 , a 2 ) ∪ ⋯ ∪ [ a r − 1 , ∞ ) (6) (-\infty, \infty)=\bigcup_{i=1}^rI_i=(-\infty,a_1)\cup[a_1,a_2)\cup\cdots\cup[a_{r-1},\infty)\tag6 (−∞,∞)=i=1⋃r​Ii​=(−∞,a1​)∪[a1​,a2​)∪⋯∪[ar−1​,∞)(6) 且以 n i n_i ni​记落在第 i i i个区间 I i I_i Ii​内的样本个数,再记 p 1 = F ( a 1 ) , p 2 = F ( a 2 ) − F ( a 1 ) , ⋯   , p r = 1 − F ( a r − 1 ) (7) p_1=F(a_1), p_2=F(a_2)-F(a_1),\cdots,p_r=1-F(a_{r-1})\tag7 p1​=F(a1​),p2​=F(a2​)−F(a1​),⋯,pr​=1−F(ar−1​)(7) p 10 = F 0 ( a 1 ) , p 20 = F 0 ( a 2 ) − F 0 ( a 1 ) , ⋯   , p r 0 = 1 − F 0 ( a r − 1 ) (8) p_{10}=F_0(a_1), p_{20}=F_0(a_2)-F_0(a_1),\cdots,p_{r0}=1-F_0(a_{r-1})\tag8 p10​=F0​(a1​),p20​=F0​(a2​)−F0​(a1​),⋯,pr0​=1−F0​(ar−1​)(8) 则我们可以用统计量 χ 2 = ∑ i = 1 r ( n i − n p i 0 ) 2 n p i 0 (9) \chi^2=\sum_{i=1}^r\frac{(n_i-np_{i0})^2}{np_{i0}}\tag9 χ2=i=1∑r​npi0​(ni​−npi0​)2​(9) 来检验。

我们检验的假设为 H 0 : p i = p i 0 H_0:p_i=p_{i0} H0​:pi​=pi0​,所以如果分点选的不是很好,可能会把两个有一定差别的分布检验为没有区别在一般情形下,分点的选取应保证落在每个区间内的样本点个数不小于 5 5 5,且总的样本容量不应小于 30 30 30当 F 0 F_0 F0​中含有未知参数时,上述拟合优度检验无法实施 2.2 带有未知参数的 χ 2 \chi^2 χ2拟合优度检验

在许多实际问题中,我们感兴趣的假设可能为 H 0 : F ( x ) ≡ F 0 ( x ; θ 1 , ⋯   , θ k ) (10) H_0:F(x)\equiv F_0(x;\theta_1,\cdots,\theta_k)\tag{10} H0​:F(x)≡F0​(x;θ1​,⋯,θk​)(10) 其中, F 0 ( x ; θ 1 , ⋯   , θ k ) F_0(x;\theta_1,\cdots,\theta_k) F0​(x;θ1​,⋯,θk​)是依赖于 k k k个未知参数的形式已知的分布,如一般的正态分布,二项分布等。

Fisher指出,当 H 0 H_0 H0​成立时,可先用MLE估计未知参数,可以得到 p ^ i 0 \hat p_{i0} p^​i0​的值,之后可以利用统计量 χ 2 = ∑ i = 1 r ( n i − n p ^ i 0 ) 2 n p ^ i 0 (11) \chi^2=\sum_{i=1}^r\frac{(n_i-n\hat p_{i0})^2}{n\hat p_{i0}}\tag{11} χ2=i=1∑r​np^​i0​(ni​−np^​i0​)2​(11) 作为检验统计量,且当 H 0 H_0 H0​成立时及 n → ∞ n\to\infty n→∞时,仍有 χ 2 → χ 2 ( r − 1 − k ) \chi^2\to\chi^2(r-1-k) χ2→χ2(r−1−k)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3