数理统计复习笔记四 |
您所在的位置:网站首页 › eviews求估计值置信区间 › 数理统计复习笔记四 |
文章目录
一、基本概念1.1 区间估计1.2 置信水平(置信度)1.3 置信系数1.4 置信区间1.5 单侧置信限1.6 置信域
二、枢轴量法2.1 上侧
α
\alpha
α分位数2.2 小样本情况下的步骤2.3 大样本情况下2.4 单个正态总体参数的置信水平为
1
−
α
1-\alpha
1−α的置信区间
三、两个正态总体的置信区间3.1
δ
=
μ
2
−
μ
1
\delta=\mu_2-\mu_1
δ=μ2−μ1的置信区间3.1.1
σ
1
2
=
σ
2
2
=
σ
2
\sigma^2_1=\sigma^2_2=\sigma^2
σ12=σ22=σ2未知时3.1.2
θ
=
σ
2
2
/
σ
1
2
\theta=\sigma^2_2/\sigma^2_1
θ=σ22/σ12已知时3.1.3
m
=
n
m=n
m=n时3.1.4 当
m
,
n
m, n
m,n都充分大时
3.2 方差比
σ
1
2
/
σ
2
2
\sigma^2_1/\sigma^2_2
σ12/σ22的置信区间
数理统计复习笔记三——点估计介绍了若干点估计的方法和准则,本文介绍区间估计。 区间估计是介于估计和检验之间的内容,且区间估计与检验紧密相连,因此有的也把区间估计看作是检验的一种。 一、基本概念 1.1 区间估计设 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn为来自分布族 F = { f ( x , θ ) , θ ∈ Θ } \mathcal F=\{f(x,\theta), \theta\in\Theta\} F={f(x,θ),θ∈Θ}的样本, θ \theta θ为一维未知参数。如果 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X), θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)为两个统计量,且 θ ^ L ( X ) ≤ θ ^ U ( X ) \hat\theta_L(\bm X)\le \hat\theta_U(\bm X) θ^L(X)≤θ^U(X),则称随机区间 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]为 θ \theta θ的一个区间估计。 1.2 置信水平(置信度)既然是估计,就应该有一个好坏的衡量指标。 当参数的真值为 θ \theta θ时,随机区间 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]包含 θ \theta θ的概率 P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\} Pθ{[θ^L(X)≤θ≤θ^U(X)]}就称为置信水平或置信度。 对于一个区间估计来说,肯定希望置信水平或置信度越大越好。由于这个置信水平依赖于参数真值,故我们自然希望对于参数空间 Θ \Theta Θ中的每一个 θ \theta θ,其置信水平都很大。 1.3 置信系数设随机区间 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]为 θ \theta θ的一个区间估计,则称 inf θ ∈ Θ P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } \inf_{\theta\in\Theta}P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\} θ∈ΘinfPθ{[θ^L(X)≤θ≤θ^U(X)]}为该区间估计的置信系数。 区间估计有时要用开区间或半开半闭区间,但从置信水平的角度看,这几种区间估计没有本质的区别在计算某区间估计的置信水平时,我们应该知道 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X), θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)的联合分布。如果不知道其联合分布,则很难求得其置信系数,这就是构造置信区间的技巧所在 1.4 置信区间设 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]是参数 θ \theta θ的一个区间估计,如果对给定的 α ∈ ( 0 , 1 ) \alpha\in(0, 1) α∈(0,1),有 P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } ≥ 1 − α , ∀ θ ∈ Θ (2) P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\}\ge1-\alpha , \forall\theta\in\Theta\tag{2} Pθ{[θ^L(X)≤θ≤θ^U(X)]}≥1−α,∀θ∈Θ(2) 则称 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]为 θ \theta θ的置信水平为 1 − α 1-\alpha 1−α的置信区间, θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X), θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)分别称为置信下限和置信上限。 实际中也称满足 P θ { [ θ ^ L ( X ) ≤ θ ≤ θ ^ U ( X ) ] } = 1 − α P_\theta\{[\hat\theta_L(\bm X)\le\theta\le\hat\theta_U(\bm X)]\}=1-\alpha Pθ{[θ^L(X)≤θ≤θ^U(X)]}=1−α的区间估计为置信区间 详见杂记——贝叶斯可信区间与频率置信区间的区别 1.5 单侧置信限有时人们感兴趣的指标是望大或望小指标(指标越大/小越好)。 设 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X), θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)为两个统计量,对给定的 α ∈ ( 0 , 1 ) \alpha\in(0, 1) α∈(0,1),有 P θ { θ ^ L ( X ) ≤ θ } ≥ 1 − α , ∀ θ ∈ Θ (3) P_\theta\{\hat\theta_L(\bm X)\le\theta\}\ge1-\alpha, \forall\theta\in\Theta\tag{3} Pθ{θ^L(X)≤θ}≥1−α,∀θ∈Θ(3) P θ { θ ^ U ( X ) ≥ θ } ≥ 1 − α , ∀ θ ∈ Θ (4) P_\theta\{\hat\theta_U(\bm X)\ge\theta\}\ge1-\alpha, \forall\theta\in\Theta\tag{4} Pθ{θ^U(X)≥θ}≥1−α,∀θ∈Θ(4) 则分别称 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X)与 θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)为 θ \theta θ的置信水平为 1 − α 1-\alpha 1−α的单侧置信下限和单侧置信上限。 与双侧置信限的关系: 设 θ ^ L ( X ) \hat\theta_L(\bm X) θ^L(X)与 θ ^ U ( X ) \hat\theta_U(\bm X) θ^U(X)为 θ \theta θ的置信水平为 1 − α 1 1-\alpha_1 1−α1和 1 − α 2 1-\alpha_2 1−α2的单侧置信下限和单侧置信上限,且 θ ^ L ( X ) ≤ θ ^ U ( X ) \hat\theta_L(\bm X)\le \hat\theta_U(\bm X) θ^L(X)≤θ^U(X),则 [ θ ^ L ( X ) , θ ^ U ( X ) ] [\hat\theta_L(\bm X), \hat\theta_U(\bm X)] [θ^L(X),θ^U(X)]是 θ \theta θ的置信水平为 1 − ( α 1 + α 2 ) 1-(\alpha_1+\alpha_2) 1−(α1+α2)的置信区间。 1.6 置信域设 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn为来自分布族 F = { f ( x , θ ) , θ ∈ Θ ⊆ R k } \mathcal F=\{f(x,\theta), \theta\in\Theta\subseteq\bm R^k\} F={f(x,θ),θ∈Θ⊆Rk}的样本, θ = ( θ 1 , ⋯ , θ k ) T \theta=(\theta_1,\cdots,\theta_k)^T θ=(θ1,⋯,θk)T,如果统计量 S ( X ) S(\bm X) S(X)满足 对任一样本观测值 x \bm x x, S ( x ) S(\bm x) S(x)是 Θ \Theta Θ的一个子集;对给定的 α ∈ ( 0 , 1 ) \alpha\in(0,1) α∈(0,1), P θ { θ ∈ S ( X ) } ≥ 1 − α , ∀ θ ∈ Θ P_\theta\{\theta\in S(\bm X)\}\ge1-\alpha, \forall\theta\in\Theta Pθ{θ∈S(X)}≥1−α,∀θ∈Θ 则称 S ( X ) S(\bm X) S(X)是 θ \theta θ的置信水平为 1 − α 1-\alpha 1−α的置信域,而概率 P θ { θ ∈ S ( X ) } P_\theta\{\theta\in S(\bm X)\} Pθ{θ∈S(X)}在 Θ \Theta Θ上的下确界就称为置信系数 二、枢轴量法求取参数的置信区间的方法有很多,本文主要介绍最常用的枢轴量法,尤其是对于连续型分布族。 2.1 上侧 α \alpha α分位数记
Φ
(
x
)
\Phi(x)
Φ(x)和
ϕ
(
x
)
\phi(x)
ϕ(x)分别表示标准正态分布
N
(
0
,
1
)
N(0, 1)
N(0,1)的
C
D
F
CDF
CDF和
P
D
F
PDF
PDF,且用满足方程
Φ
(
u
α
)
=
1
−
α
(5)
\Phi(u_\alpha)=1-\alpha\tag{5}
Φ(uα)=1−α(5)的
u
α
u_\alpha
uα表示标准正态分布的上侧
α
\alpha
α分位数,如下图 第2步寻找枢轴量最关键 例子: 设 X 1 , ⋯ , X n X_1, \cdots, X_n X1,⋯,Xn为来自正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的 I I D IID IID样本, μ , σ 2 \mu, \sigma^2 μ,σ2均未知,试求 μ \mu μ的置信水平为 1 − α 1-\alpha 1−α的置信区间。 由于 X ‾ \overline X X是 μ \mu μ的一个很好的点估计,故我们在第一步取 T = X ‾ T=\overline X T=X虽然 n ( X ‾ − μ ) / σ ∼ N ( 0 , 1 ) \sqrt{n}(\overline X-\mu)/\sigma\sim N(0,1) n (X−μ)/σ∼N(0,1),但 σ \sigma σ未知,所以想到用 S n S_n Sn来代替,而 n ( X ‾ − μ ) / S n ∼ t ( n − 1 ) \sqrt{n}(\overline X-\mu)/S_n\sim t(n-1) n (X−μ)/Sn∼t(n−1),所以可取枢轴量 S = n ( X ‾ − μ ) / S n S=\sqrt{n}(\overline X-\mu)/S_n S=n (X−μ)/Sn由于 S ∼ t ( n − 1 ) S\sim t(n-1) S∼t(n−1),所以可取 c = t 1 − α / 2 ( n − 1 ) = − t α / 2 ( n − 1 ) c=t_{1-\alpha/2}(n-1)=-t_{\alpha/2}(n-1) c=t1−α/2(n−1)=−tα/2(n−1), d = t α / 2 ( n − 1 ) d=t_{\alpha/2}(n-1) d=tα/2(n−1)因为 − t α / 2 ( n − 1 ) ≤ n ( X ‾ − μ ) / S n ≤ t α / 2 ( n − 1 ) -t_{\alpha/2}(n-1)\le \sqrt{n}(\overline X-\mu)/S_n\le t_{\alpha/2}(n-1) −tα/2(n−1)≤n (X−μ)/Sn≤tα/2(n−1) 所以 X ‾ − S n n t α / 2 ( n − 1 ) ≤ μ ≤ X ‾ + S n n t α / 2 ( n − 1 ) \overline X-\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1)\le\mu\le\overline X+\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1) X−n Sntα/2(n−1)≤μ≤X+n Sntα/2(n−1) 所以 μ \mu μ的置信水平为 1 − α 1-\alpha 1−α的置信区间为 [ X ‾ − S n n t α / 2 ( n − 1 ) , X ‾ + S n n t α / 2 ( n − 1 ) ] [\overline X-\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1),\overline X+\frac{S_n}{\sqrt n}t_{\alpha/2}(n-1)] [X−n Sntα/2(n−1),X+n Sntα/2(n−1)] 2.3 大样本情况下枢轴量法更适用于连续性随机变量,对于离散型随机变量,并不容易操作,其原因在于给定的 α \alpha α,一般不存在确切的分位点。 例子: 设 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn为来自伯努利分布 b ( 1 , p ) b(1,p) b(1,p)的 I I D IID IID样本,试求 p p p的置信水平为 1 − α 1-\alpha 1−α的置信区间。 关键还是找枢轴量。 我们知道 1 n ∑ i = 1 n X i \frac{1}{n}\sum\limits_{i=1}^nX_i n1i=1∑nXi是 p p p的一个很好的估计,那么枢轴量应该与 T n = ∑ i = 1 n X i T_n=\sum\limits_{i=1}^nX_i Tn=i=1∑nXi有关。而 T n ∼ B ( n , p ) T_n\sim B(n, p) Tn∼B(n,p),其分布与 p p p有关,所以不能直接把 T n T_n Tn作为枢轴量。 但由中心极限定理可知,当 n → ∞ n\to\infty n→∞时, T n − n p n p ( 1 − p ) ∼ N ( 0 , 1 ) (7) \frac{T_n-np}{\sqrt{np(1-p)}}\sim N(0, 1)\tag{7} np(1−p) Tn−np∼N(0,1)(7) 即当 n n n充分大时,我们有 P { T n − n p n p ( 1 − p ) < x } = Φ ( x ) (8) P\{\frac{T_n-np}{\sqrt{np(1-p)}}\lt x\}=\Phi(x)\tag8 P{np(1−p) Tn−npF1−α/2(m−1,n−1)≤S2n2/σ22S1m2/σ12≤Fα/2(m−1,n−1)}(18) 进而可得置信区间为 [ S 1 m 2 / S 2 n 2 F α / 2 ( m − 1 , n − 1 ) , S 1 m 2 / S 2 n 2 F 1 − α / 2 ( m − 1 , n − 1 ) ] (19) [\frac{S_{1m}^2/S_{2n}^2}{F_{\alpha/2}(m-1,n-1)}, \frac{S_{1m}^2/S_{2n}^2}{F_{1-\alpha/2}(m-1,n-1)}]\tag{19} [Fα/2(m−1,n−1)S1m2/S2n2,F1−α/2(m−1,n−1)S1m2/S2n2](19) |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |