数理统计复习笔记四

您所在的位置:网站首页 eviews求估计值置信区间 数理统计复习笔记四

数理统计复习笔记四

2024-06-01 12:52| 来源: 网络整理| 查看: 265

文章目录 一、基本概念1.1 区间估计1.2 置信水平(置信度)1.3 置信系数1.4 置信区间1.5 单侧置信限1.6 置信域 二、枢轴量法2.1 上侧 α \alpha α分位数2.2 小样本情况下的步骤2.3 大样本情况下2.4 单个正态总体参数的置信水平为 1 − α 1-\alpha 1−α的置信区间 三、两个正态总体的置信区间3.1 δ = μ 2 − μ 1 \delta=\mu_2-\mu_1 δ=μ2​−μ1​的置信区间3.1.1 σ 1 2 = σ 2 2 = σ 2 \sigma^2_1=\sigma^2_2=\sigma^2 σ12​=σ22​=σ2未知时3.1.2 θ = σ 2 2 / σ 1 2 \theta=\sigma^2_2/\sigma^2_1 θ=σ22​/σ12​已知时3.1.3 m = n m=n m=n时3.1.4 当 m , n m, n m,n都充分大时 3.2 方差比 σ 1 2 / σ 2 2 \sigma^2_1/\sigma^2_2 σ12​/σ22​的置信区间

数理统计复习笔记三——点估计介绍了若干点估计的方法和准则,本文介绍区间估计。

区间估计是介于估计和检验之间的内容,且区间估计与检验紧密相连,因此有的也把区间估计看作是检验的一种。

一、基本概念 1.1 区间估计

设 X 1 , ⋯   , X n X_1, \cdots, X_n X1​,⋯,Xn​为来自分布族 F = { f ( x , θ ) , θ ∈ Θ } \mathcal F=\{f(x,\theta), \theta\in\Theta\} F={f(x,θ),θ∈Θ}的样本, θ \theta θ为一维未知参数。如果 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L​(X), θ ^ U ( X ) \hat\theta_U(\bm X) θ^U​(X)为两个统计量,且 θ ^ L ( X ) ≤ θ ^ U ( X ) \hat\theta_L(\bm X)\le \hat\theta_U(\bm X) θ^L​(X)≤θ^U​(X),则称随机区间 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L​(X),θ^U​(X)]为 θ \theta θ的一个区间估计。

1.2 置信水平(置信度)

既然是估计,就应该有一个好坏的衡量指标。

当参数的真值为 θ \theta θ时,随机区间 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L​(X),θ^U​(X)]包含 θ \theta θ的概率 P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\} Pθ​{[θ^L​(X)≤θ≤θ^U​(X)]}就称为置信水平或置信度。

对于一个区间估计来说,肯定希望置信水平或置信度越大越好。由于这个置信水平依赖于参数真值,故我们自然希望对于参数空间 Θ \Theta Θ中的每一个 θ \theta θ,其置信水平都很大。

1.3 置信系数

设随机区间 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L​(X),θ^U​(X)]为 θ \theta θ的一个区间估计,则称 inf ⁡ θ ∈ Θ P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } \inf_{\theta\in\Theta}P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\} θ∈Θinf​Pθ​{[θ^L​(X)≤θ≤θ^U​(X)]}为该区间估计的置信系数。

区间估计有时要用开区间或半开半闭区间,但从置信水平的角度看,这几种区间估计没有本质的区别在计算某区间估计的置信水平时,我们应该知道 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L​(X), θ ^ U ( X ) \hat\theta_U(\bm X) θ^U​(X)的联合分布。如果不知道其联合分布,则很难求得其置信系数,这就是构造置信区间的技巧所在 1.4 置信区间

设 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L​(X),θ^U​(X)]是参数 θ \theta θ的一个区间估计,如果对给定的 α ∈ ( 0 , 1 ) \alpha\in(0, 1) α∈(0,1),有 P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } ≥ 1 − α , ∀ θ ∈ Θ (2) P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\}\ge1-\alpha , \forall\theta\in\Theta\tag{2} Pθ​{[θ^L​(X)≤θ≤θ^U​(X)]}≥1−α,∀θ∈Θ(2) 则称 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L​(X),θ^U​(X)]为 θ \theta θ的置信水平为 1 − α 1-\alpha 1−α的置信区间, θ ^ L ( X ) \hat\theta_L(\bm X) θ^L​(X), θ ^ U ( X ) \hat\theta_U(\bm X) θ^U​(X)分别称为置信下限和置信上限。

实际中也称满足 P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } = 1 − α P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\}=1-\alpha Pθ​{[θ^L​(X)≤θ≤θ^U​(X)]}=1−α的区间估计为置信区间

详见杂记——贝叶斯可信区间与频率置信区间的区别

1.5 单侧置信限

有时人们感兴趣的指标是望大或望小指标(指标越大/小越好)。

设 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L​(X), θ ^ U ( X ) \hat\theta_U(\bm X) θ^U​(X)为两个统计量,对给定的 α ∈ ( 0 , 1 ) \alpha\in(0, 1) α∈(0,1),有 P θ { θ ^ L ( X ) ≤ θ } ≥ 1 − α , ∀ θ ∈ Θ (3) P_\theta\{\hat\theta_L(\bm X)\le\theta\}\ge1-\alpha, \forall\theta\in\Theta\tag{3} Pθ​{θ^L​(X)≤θ}≥1−α,∀θ∈Θ(3) P θ { θ ^ U ( X ) ≥ θ } ≥ 1 − α , ∀ θ ∈ Θ (4) P_\theta\{\hat\theta_U(\bm X)\ge\theta\}\ge1-\alpha, \forall\theta\in\Theta\tag{4} Pθ​{θ^U​(X)≥θ}≥1−α,∀θ∈Θ(4) 则分别称 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L​(X)与 θ ^ U ( X ) \hat\theta_U(\bm X) θ^U​(X)为 θ \theta θ的置信水平为 1 − α 1-\alpha 1−α的单侧置信下限和单侧置信上限。

与双侧置信限的关系:

设 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L​(X)与 θ ^ U ( X ) \hat\theta_U(\bm X) θ^U​(X)为 θ \theta θ的置信水平为 1 − α 1 1-\alpha_1 1−α1​和 1 − α 2 1-\alpha_2 1−α2​的单侧置信下限和单侧置信上限,且 θ ^ L ( X ) ≤ θ ^ U ( X ) \hat\theta_L(\bm X)\le \hat\theta_U(\bm X) θ^L​(X)≤θ^U​(X),则 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L​(X),θ^U​(X)]是 θ \theta θ的置信水平为 1 − ( α 1 + α 2 ) 1-(\alpha_1+\alpha_2) 1−(α1​+α2​)的置信区间。

1.6 置信域

设 X 1 , ⋯   , X n X_1, \cdots, X_n X1​,⋯,Xn​为来自分布族 F = { f ( x , θ ) , θ ∈ Θ ⊆ R k } \mathcal F=\{f(x,\theta), \theta\in\Theta\subseteq\bm R^k\} F={f(x,θ),θ∈Θ⊆Rk}的样本, θ = ( θ 1 , ⋯   , θ k ) T \theta=(\theta_1,\cdots,\theta_k)^T θ=(θ1​,⋯,θk​)T,如果统计量 S ( X ) S(\bm X) S(X)满足

对任一样本观测值 x \bm x x, S ( x ) S(\bm x) S(x)是 Θ \Theta Θ的一个子集;对给定的 α ∈ ( 0 , 1 ) \alpha\in(0,1) α∈(0,1), P θ { θ ∈ S ( X ) } ≥ 1 − α , ∀ θ ∈ Θ P_\theta\{\theta\in S(\bm X)\}\ge1-\alpha, \forall\theta\in\Theta Pθ​{θ∈S(X)}≥1−α,∀θ∈Θ 则称 S ( X ) S(\bm X) S(X)是 θ \theta θ的置信水平为 1 − α 1-\alpha 1−α的置信域,而概率 P θ { θ ∈ S ( X ) } P_\theta\{\theta\in S(\bm X)\} Pθ​{θ∈S(X)}在 Θ \Theta Θ上的下确界就称为置信系数 二、枢轴量法

求取参数的置信区间的方法有很多,本文主要介绍最常用的枢轴量法,尤其是对于连续型分布族。

2.1 上侧 α \alpha α分位数

记 Φ ( x ) \Phi(x) Φ(x)和 ϕ ( x ) \phi(x) ϕ(x)分别表示标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1)的 C D F CDF CDF和 P D F PDF PDF,且用满足方程 Φ ( u α ) = 1 − α (5) \Phi(u_\alpha)=1-\alpha\tag{5} Φ(uα​)=1−α(5)的 u α u_\alpha uα​表示标准正态分布的上侧 α \alpha α分位数,如下图 在这里插入图片描述 类似的,用 χ α 2 ( n ) \chi_\alpha^2(n) χα2​(n), t α ( n ) t_\alpha(n) tα​(n), F α ( m , n ) F_\alpha(m, n) Fα​(m,n)表示 χ 2 ( n ) \chi^2(n) χ2(n), t ( n ) t(n) t(n), F ( m , n ) F(m, n) F(m,n)的上侧 α \alpha α分位数。

2.2 小样本情况下的步骤 找一个与待估参数 g ( θ ) g(\theta) g(θ)无关的统计量 T T T,一般是它的一个很好的点估计设法找出 T T T与 g ( θ ) g(\theta) g(θ)的某函数 S ( T , g ( θ ) ) S(T, g(\theta)) S(T,g(θ)),使得 S ( T , g ( θ ) ) S(T, g(\theta)) S(T,g(θ))的分布 F ( x ) F(x) F(x)与 θ \theta θ无关, S S S就称为枢轴量,一般令分布为正态分布、 χ 2 \chi^2 χ2分布、 t t t分布或 F F F分布适当的选取两个常数 c , d c, d c,d,使对给定的 α ∈ ( 0 , 1 ) \alpha\in(0, 1) α∈(0,1),有 P θ { c ≤ S ( T , g ( θ ) ) ≤ d } = 1 − α (6) P_\theta\{c\le S(T, g(\theta))\le d\}=1-\alpha\tag{6} Pθ​{c≤S(T,g(θ))≤d}=1−α(6)即 F ( d ) − F ( c ) = 1 − α F(d)-F(c)=1-\alpha F(d)−F(c)=1−α,一般取 d = F α / 2 d=F_{\alpha/2} d=Fα/2​, c = F 1 − α / 2 c=F_{1-\alpha/2} c=F1−α/2​如果能把 ( 6 ) (6) (6)式中的不等式 c ≤ S ( T , g ( θ ) ) ≤ d } = 1 − α c\le S(T, g(\theta))\le d\}=1-\alpha c≤S(T,g(θ))≤d}=1−α等价的改写成 θ ^ L ( X ) ≤ g ( θ ) ≤ θ ^ U ( X ) \hat\theta_L(\bm X)\le g(\theta)\le\hat\theta_U(\bm X) θ^L​(X)≤g(θ)≤θ^U​(X),其中 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L​(X), θ ^ U ( X ) \hat\theta_U(\bm X) θ^U​(X)只与 c , d c, d c,d和 T T T有关,而与 θ \theta θ无关,则 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L​(X),θ^U​(X)]为 g ( θ ) g(\theta) g(θ)的置信水平为 1 − α 1-\alpha 1−α的置信区间

第2步寻找枢轴量最关键

例子:

设 X 1 , ⋯   , X n X_1, \cdots, X_n X1​,⋯,Xn​为来自正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的 I I D IID IID样本, μ , σ 2 \mu, \sigma^2 μ,σ2均未知,试求 μ \mu μ的置信水平为 1 − α 1-\alpha 1−α的置信区间。

由于 X ‾ \overline X X是 μ \mu μ的一个很好的点估计,故我们在第一步取 T = X ‾ T=\overline X T=X虽然 n ( X ‾ − μ ) / σ ∼ N ( 0 , 1 ) \sqrt{n}(\overline X-\mu)/\sigma\sim N(0,1) n ​(X−μ)/σ∼N(0,1),但 σ \sigma σ未知,所以想到用 S n S_n Sn​来代替,而 n ( X ‾ − μ ) / S n ∼ t ( n − 1 ) \sqrt{n}(\overline X-\mu)/S_n\sim t(n-1) n ​(X−μ)/Sn​∼t(n−1),所以可取枢轴量 S = n ( X ‾ − μ ) / S n S=\sqrt{n}(\overline X-\mu)/S_n S=n ​(X−μ)/Sn​由于 S ∼ t ( n − 1 ) S\sim t(n-1) S∼t(n−1),所以可取 c = t 1 − α / 2 ( n − 1 ) = − t α / 2 ( n − 1 ) c=t_{1-\alpha/2}(n-1)=-t_{\alpha/2}(n-1) c=t1−α/2​(n−1)=−tα/2​(n−1), d = t α / 2 ( n − 1 ) d=t_{\alpha/2}(n-1) d=tα/2​(n−1)因为 − t α / 2 ( n − 1 ) ≤ n ( X ‾ − μ ) / S n ≤ t α / 2 ( n − 1 ) -t_{\alpha/2}(n-1)\le \sqrt{n}(\overline X-\mu)/S_n\le t_{\alpha/2}(n-1) −tα/2​(n−1)≤n ​(X−μ)/Sn​≤tα/2​(n−1) 所以 X ‾ − S n n t α / 2 ( n − 1 ) ≤ μ ≤ X ‾ + S n n t α / 2 ( n − 1 ) \overline X-\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1)\le\mu\le\overline X+\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1) X−n ​Sn​​tα/2​(n−1)≤μ≤X+n ​Sn​​tα/2​(n−1) 所以 μ \mu μ的置信水平为 1 − α 1-\alpha 1−α的置信区间为 [ X ‾ − S n n t α / 2 ( n − 1 ) , X ‾ + S n n t α / 2 ( n − 1 ) ] [\overline X-\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1),\overline X+\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1)] [X−n ​Sn​​tα/2​(n−1),X+n ​Sn​​tα/2​(n−1)] 2.3 大样本情况下

枢轴量法更适用于连续性随机变量,对于离散型随机变量,并不容易操作,其原因在于给定的 α \alpha α,一般不存在确切的分位点。

例子:

设 X 1 , ⋯   , X n X_1,\cdots,X_n X1​,⋯,Xn​为来自伯努利分布 b ( 1 , p ) b(1,p) b(1,p)的 I I D IID IID样本,试求 p p p的置信水平为 1 − α 1-\alpha 1−α的置信区间。

关键还是找枢轴量。

我们知道 1 n ∑ i = 1 n X i \frac{1}{n}\sum\limits_{i=1}^nX_i n1​i=1∑n​Xi​是 p p p的一个很好的估计,那么枢轴量应该与 T n = ∑ i = 1 n X i T_n=\sum\limits_{i=1}^nX_i Tn​=i=1∑n​Xi​有关。而 T n ∼ B ( n , p ) T_n\sim B(n, p) Tn​∼B(n,p),其分布与 p p p有关,所以不能直接把 T n T_n Tn​作为枢轴量。

但由中心极限定理可知,当 n → ∞ n\to\infty n→∞时, T n − n p n p ( 1 − p ) ∼ N ( 0 , 1 ) (7) \frac{T_n-np}{\sqrt{np(1-p)}}\sim N(0, 1)\tag{7} np(1−p) ​Tn​−np​∼N(0,1)(7) 即当 n n n充分大时,我们有 P { T n − n p n p ( 1 − p ) < x } = Φ ( x ) (8) P\{\frac{T_n-np}{\sqrt{np(1-p)}}\lt x\}=\Phi(x)\tag8 P{np(1−p) ​Tn​−np​F1−α/2​(m−1,n−1)≤S2n2​/σ22​S1m2​/σ12​​≤Fα/2​(m−1,n−1)}(18) 进而可得置信区间为 [ S 1 m 2 / S 2 n 2 F α / 2 ( m − 1 , n − 1 ) , S 1 m 2 / S 2 n 2 F 1 − α / 2 ( m − 1 , n − 1 ) ] (19) [\frac{S_{1m}^2/S_{2n}^2}{F_{\alpha/2}(m-1,n-1)}, \frac{S_{1m}^2/S_{2n}^2}{F_{1-\alpha/2}(m-1,n-1)}]\tag{19} [Fα/2​(m−1,n−1)S1m2​/S2n2​​,F1−α/2​(m−1,n−1)S1m2​/S2n2​​](19)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3