数理统计复习笔记四

您所在的位置：网站首页 › eviews求估计值置信区间 › 数理统计复习笔记四

数理统计复习笔记四

2024-06-01 12:52| 来源: 网络整理| 查看: 265

文章目录一、基本概念1.1 区间估计1.2 置信水平（置信度）1.3 置信系数1.4 置信区间1.5 单侧置信限1.6 置信域二、枢轴量法2.1 上侧 α \alpha α分位数2.2 小样本情况下的步骤2.3 大样本情况下2.4 单个正态总体参数的置信水平为 1 − α 1-\alpha 1−α的置信区间三、两个正态总体的置信区间3.1 δ = μ 2 − μ 1 \delta=\mu_2-\mu_1 δ=μ2−μ1的置信区间3.1.1 σ 1 2 = σ 2 2 = σ 2 \sigma^2_1=\sigma^2_2=\sigma^2 σ12=σ22=σ2未知时3.1.2 θ = σ 2 2 / σ 1 2 \theta=\sigma^2_2/\sigma^2_1 θ=σ22/σ12已知时3.1.3 m = n m=n m=n时3.1.4 当 m , n m, n m,n都充分大时 3.2 方差比 σ 1 2 / σ 2 2 \sigma^2_1/\sigma^2_2 σ12/σ22的置信区间

数理统计复习笔记三——点估计介绍了若干点估计的方法和准则，本文介绍区间估计。

区间估计是介于估计和检验之间的内容，且区间估计与检验紧密相连，因此有的也把区间估计看作是检验的一种。

一、基本概念 1.1 区间估计

设 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn为来自分布族 F = { f ( x , θ ) , θ ∈ Θ } \mathcal F=\{f(x,\theta), \theta\in\Theta\} F={f(x,θ),θ∈Θ}的样本， θ \theta θ为一维未知参数。如果 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X)， θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)为两个统计量，且 θ ^ L ( X ) ≤ θ ^ U ( X ) \hat\theta_L(\bm X)\le \hat\theta_U(\bm X) θ^L(X)≤θ^U(X)，则称随机区间 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]为 θ \theta θ的一个区间估计。

1.2 置信水平（置信度）

既然是估计，就应该有一个好坏的衡量指标。

当参数的真值为 θ \theta θ时，随机区间 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]包含 θ \theta θ的概率 P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\} Pθ{[θ^L(X)≤θ≤θ^U(X)]}就称为置信水平或置信度。

对于一个区间估计来说，肯定希望置信水平或置信度越大越好。由于这个置信水平依赖于参数真值，故我们自然希望对于参数空间 Θ \Theta Θ中的每一个 θ \theta θ，其置信水平都很大。

1.3 置信系数

设随机区间 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]为 θ \theta θ的一个区间估计，则称 inf ⁡ θ ∈ Θ P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } \inf_{\theta\in\Theta}P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\} θ∈ΘinfPθ{[θ^L(X)≤θ≤θ^U(X)]}为该区间估计的置信系数。

区间估计有时要用开区间或半开半闭区间，但从置信水平的角度看，这几种区间估计没有本质的区别在计算某区间估计的置信水平时，我们应该知道 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X)， θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)的联合分布。如果不知道其联合分布，则很难求得其置信系数，这就是构造置信区间的技巧所在 1.4 置信区间

设 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]是参数 θ \theta θ的一个区间估计，如果对给定的 α ∈ ( 0 , 1 ) \alpha\in(0, 1) α∈(0,1)，有 P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } ≥ 1 − α , ∀ θ ∈ Θ (2) P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\}\ge1-\alpha , \forall\theta\in\Theta\tag{2} Pθ{[θ^L(X)≤θ≤θ^U(X)]}≥1−α,∀θ∈Θ(2) 则称 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]为 θ \theta θ的置信水平为 1 − α 1-\alpha 1−α的置信区间， θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X)， θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)分别称为置信下限和置信上限。

实际中也称满足 P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } = 1 − α P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\}=1-\alpha Pθ{[θ^L(X)≤θ≤θ^U(X)]}=1−α的区间估计为置信区间

详见杂记——贝叶斯可信区间与频率置信区间的区别

1.5 单侧置信限

有时人们感兴趣的指标是望大或望小指标（指标越大/小越好）。

设 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X)， θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)为两个统计量，对给定的 α ∈ ( 0 , 1 ) \alpha\in(0, 1) α∈(0,1)，有 P θ { θ ^ L ( X ) ≤ θ } ≥ 1 − α , ∀ θ ∈ Θ (3) P_\theta\{\hat\theta_L(\bm X)\le\theta\}\ge1-\alpha, \forall\theta\in\Theta\tag{3} Pθ{θ^L(X)≤θ}≥1−α,∀θ∈Θ(3) P θ { θ ^ U ( X ) ≥ θ } ≥ 1 − α , ∀ θ ∈ Θ (4) P_\theta\{\hat\theta_U(\bm X)\ge\theta\}\ge1-\alpha, \forall\theta\in\Theta\tag{4} Pθ{θ^U(X)≥θ}≥1−α,∀θ∈Θ(4) 则分别称 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X)与 θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)为 θ \theta θ的置信水平为 1 − α 1-\alpha 1−α的单侧置信下限和单侧置信上限。

与双侧置信限的关系：

设 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X)与 θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)为 θ \theta θ的置信水平为 1 − α 1 1-\alpha_1 1−α1和 1 − α 2 1-\alpha_2 1−α2的单侧置信下限和单侧置信上限，且 θ ^ L ( X ) ≤ θ ^ U ( X ) \hat\theta_L(\bm X)\le \hat\theta_U(\bm X) θ^L(X)≤θ^U(X)，则 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]是 θ \theta θ的置信水平为 1 − ( α 1 + α 2 ) 1-(\alpha_1+\alpha_2) 1−(α1+α2)的置信区间。

1.6 置信域

设 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn为来自分布族 F = { f ( x , θ ) , θ ∈ Θ ⊆ R k } \mathcal F=\{f(x,\theta), \theta\in\Theta\subseteq\bm R^k\} F={f(x,θ),θ∈Θ⊆Rk}的样本， θ = ( θ 1 , ⋯ , θ k ) T \theta=(\theta_1,\cdots,\theta_k)^T θ=(θ1,⋯,θk)T，如果统计量 S ( X ) S(\bm X) S(X)满足

对任一样本观测值 x \bm x x， S ( x ) S(\bm x) S(x)是 Θ \Theta Θ的一个子集；对给定的 α ∈ ( 0 , 1 ) \alpha\in(0,1) α∈(0,1)， P θ { θ ∈ S ( X ) } ≥ 1 − α , ∀ θ ∈ Θ P_\theta\{\theta\in S(\bm X)\}\ge1-\alpha, \forall\theta\in\Theta Pθ{θ∈S(X)}≥1−α,∀θ∈Θ 则称 S ( X ) S(\bm X) S(X)是 θ \theta θ的置信水平为 1 − α 1-\alpha 1−α的置信域，而概率 P θ { θ ∈ S ( X ) } P_\theta\{\theta\in S(\bm X)\} Pθ{θ∈S(X)}在 Θ \Theta Θ上的下确界就称为置信系数二、枢轴量法

求取参数的置信区间的方法有很多，本文主要介绍最常用的枢轴量法，尤其是对于连续型分布族。

2.1 上侧 α \alpha α分位数

记 Φ ( x ) \Phi(x) Φ(x)和 ϕ ( x ) \phi(x) ϕ(x)分别表示标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1)的 C D F CDF CDF和 P D F PDF PDF，且用满足方程 Φ ( u α ) = 1 − α (5) \Phi(u_\alpha)=1-\alpha\tag{5} Φ(uα)=1−α(5)的 u α u_\alpha uα表示标准正态分布的上侧 α \alpha α分位数，如下图在这里插入图片描述类似的，用 χ α 2 ( n ) \chi_\alpha^2(n) χα2(n)， t α ( n ) t_\alpha(n) tα(n)， F α ( m , n ) F_\alpha(m, n) Fα(m,n)表示 χ 2 ( n ) \chi^2(n) χ2(n)， t ( n ) t(n) t(n)， F ( m , n ) F(m, n) F(m,n)的上侧 α \alpha α分位数。

2.2 小样本情况下的步骤找一个与待估参数 g ( θ ) g(\theta) g(θ)无关的统计量 T T T，一般是它的一个很好的点估计设法找出 T T T与 g ( θ ) g(\theta) g(θ)的某函数 S ( T , g ( θ ) ) S(T, g(\theta)) S(T,g(θ))，使得 S ( T , g ( θ ) ) S(T, g(\theta)) S(T,g(θ))的分布 F ( x ) F(x) F(x)与 θ \theta θ无关， S S S就称为枢轴量，一般令分布为正态分布、 χ 2 \chi^2 χ2分布、 t t t分布或 F F F分布适当的选取两个常数 c , d c, d c,d，使对给定的 α ∈ ( 0 , 1 ) \alpha\in(0, 1) α∈(0,1)，有 P θ { c ≤ S ( T , g ( θ ) ) ≤ d } = 1 − α (6) P_\theta\{c\le S(T, g(\theta))\le d\}=1-\alpha\tag{6} Pθ{c≤S(T,g(θ))≤d}=1−α(6)即 F ( d ) − F ( c ) = 1 − α F(d)-F(c)=1-\alpha F(d)−F(c)=1−α，一般取 d = F α / 2 d=F_{\alpha/2} d=Fα/2， c = F 1 − α / 2 c=F_{1-\alpha/2} c=F1−α/2如果能把 ( 6 ) (6) (6)式中的不等式 c ≤ S ( T , g ( θ ) ) ≤ d } = 1 − α c\le S(T, g(\theta))\le d\}=1-\alpha c≤S(T,g(θ))≤d}=1−α等价的改写成 θ ^ L ( X ) ≤ g ( θ ) ≤ θ ^ U ( X ) \hat\theta_L(\bm X)\le g(\theta)\le\hat\theta_U(\bm X) θ^L(X)≤g(θ)≤θ^U(X)，其中 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X)， θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)只与 c , d c, d c,d和 T T T有关，而与 θ \theta θ无关，则 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]为 g ( θ ) g(\theta) g(θ)的置信水平为 1 − α 1-\alpha 1−α的置信区间

第2步寻找枢轴量最关键

例子：

设 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn为来自正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的 I I D IID IID样本， μ , σ 2 \mu, \sigma^2 μ,σ2均未知，试求 μ \mu μ的置信水平为 1 − α 1-\alpha 1−α的置信区间。

由于 X ‾ \overline X X是 μ \mu μ的一个很好的点估计，故我们在第一步取 T = X ‾ T=\overline X T=X虽然 n ( X ‾ − μ ) / σ ∼ N ( 0 , 1 ) \sqrt{n}(\overline X-\mu)/\sigma\sim N(0,1) n (X−μ)/σ∼N(0,1)，但 σ \sigma σ未知，所以想到用 S n S_n Sn来代替，而 n ( X ‾ − μ ) / S n ∼ t ( n − 1 ) \sqrt{n}(\overline X-\mu)/S_n\sim t(n-1) n (X−μ)/Sn∼t(n−1)，所以可取枢轴量 S = n ( X ‾ − μ ) / S n S=\sqrt{n}(\overline X-\mu)/S_n S=n (X−μ)/Sn由于 S ∼ t ( n − 1 ) S\sim t(n-1) S∼t(n−1)，所以可取 c = t 1 − α / 2 ( n − 1 ) = − t α / 2 ( n − 1 ) c=t_{1-\alpha/2}(n-1)=-t_{\alpha/2}(n-1) c=t1−α/2(n−1)=−tα/2(n−1)， d = t α / 2 ( n − 1 ) d=t_{\alpha/2}(n-1) d=tα/2(n−1)因为 − t α / 2 ( n − 1 ) ≤ n ( X ‾ − μ ) / S n ≤ t α / 2 ( n − 1 ) -t_{\alpha/2}(n-1)\le \sqrt{n}(\overline X-\mu)/S_n\le t_{\alpha/2}(n-1) −tα/2(n−1)≤n (X−μ)/Sn≤tα/2(n−1) 所以 X ‾ − S n n t α / 2 ( n − 1 ) ≤ μ ≤ X ‾ + S n n t α / 2 ( n − 1 ) \overline X-\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1)\le\mu\le\overline X+\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1) X−n Sntα/2(n−1)≤μ≤X+n Sntα/2(n−1) 所以 μ \mu μ的置信水平为 1 − α 1-\alpha 1−α的置信区间为 [ X ‾ − S n n t α / 2 ( n − 1 ) , X ‾ + S n n t α / 2 ( n − 1 ) ] [\overline X-\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1),\overline X+\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1)] [X−n Sntα/2(n−1),X+n Sntα/2(n−1)] 2.3 大样本情况下

枢轴量法更适用于连续性随机变量，对于离散型随机变量，并不容易操作，其原因在于给定的 α \alpha α，一般不存在确切的分位点。

例子：

设 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn为来自伯努利分布 b ( 1 , p ) b(1,p) b(1,p)的 I I D IID IID样本，试求 p p p的置信水平为 1 − α 1-\alpha 1−α的置信区间。

关键还是找枢轴量。

我们知道 1 n ∑ i = 1 n X i \frac{1}{n}\sum\limits_{i=1}^nX_i n1i=1∑nXi是 p p p的一个很好的估计，那么枢轴量应该与 T n = ∑ i = 1 n X i T_n=\sum\limits_{i=1}^nX_i Tn=i=1∑nXi有关。而 T n ∼ B ( n , p ) T_n\sim B(n, p) Tn∼B(n,p)，其分布与 p p p有关，所以不能直接把 T n T_n Tn作为枢轴量。

但由中心极限定理可知，当 n → ∞ n\to\infty n→∞时， T n − n p n p ( 1 − p ) ∼ N ( 0 , 1 ) (7) \frac{T_n-np}{\sqrt{np(1-p)}}\sim N(0, 1)\tag{7} np(1−p) Tn−np∼N(0,1)(7) 即当 n n n充分大时，我们有 P { T n − n p n p ( 1 − p ) < x } = Φ ( x ) (8) P\{\frac{T_n-np}{\sqrt{np(1-p)}}\lt x\}=\Phi(x)\tag8 P{np(1−p) Tn−npF1−α/2(m−1,n−1)≤S2n2/σ22S1m2/σ12≤Fα/2(m−1,n−1)}(18) 进而可得置信区间为 [ S 1 m 2 / S 2 n 2 F α / 2 ( m − 1 , n − 1 ) , S 1 m 2 / S 2 n 2 F 1 − α / 2 ( m − 1 , n − 1 ) ] (19) [\frac{S_{1m}^2/S_{2n}^2}{F_{\alpha/2}(m-1,n-1)}, \frac{S_{1m}^2/S_{2n}^2}{F_{1-\alpha/2}(m-1,n-1)}]\tag{19} [Fα/2(m−1,n−1)S1m2/S2n2,F1−α/2(m−1,n−1)S1m2/S2n2](19)

【本文地址】

数理统计复习笔记四

数理统计复习笔记四

今日新闻

推荐新闻