【抽样调查】多阶段抽样

您所在的位置:网站首页 抽样调查频率什么意思 【抽样调查】多阶段抽样

【抽样调查】多阶段抽样

2024-07-10 13:15| 来源: 网络整理| 查看: 265

第4部分 多阶段抽样

目录第4部分 多阶段抽样概述与符号说明两阶段抽样估计量的均值和方差初级单元规模相等的两阶段抽样均值估计方差估计初等单元规模不等的两阶段抽样简单估计量比率估计量抽样设计

概述与符号说明

多阶段抽样是推广的整群抽样。在整群抽样中,抽样总体被划分为若干个PSU(primary sampling unit),每一个PSU中含有的抽样单元每一个都是一个SSU(second-stage sampling unit),将抽中的PSU内的所有SSU入样。而多阶段抽样在抽中的PSU中,对PSU所含有的SSU进行第二阶段的抽样,抽取子样本。以此类推,还可以有第三阶段、第四阶段的抽样。

如对一所学校内的学生进行抽样,可以先抽取宿舍(PSU),如果是整群抽样,则抽中的宿舍中所有学生都入样;如果是多阶段抽样,则在抽中的宿舍中进一步抽取学生(SSU)。

本文主要考虑等概率两阶段抽样,以下定义相关符号。

与整群抽样一致,总体中的PSU个数记作\(N\),第\(i\)个\(N\)中含有的SSU个数记作\(M_i\),SSU总数为\(M_0=\displaystyle{\sum_{i=1}^{N}M_i}\),特别当各种群规模一致时,记

\[M_1=M_2=\cdots=M_N\xlongequal{def}M. \]

总体中第\(i\)个PSU的第\(j\)个SSU观测值记作\(Y_{ij}\),总体总值为\(\displaystyle{Y=\sum_{i=1}^{N}\sum_{j=1}^{M_i}Y_{ij}}\),第\(i\)个PSU的总值为\(\displaystyle{Y_i=\sum_{j=1}^{M_i}Y_{ij}}\)。总体按SSU的均值为\(\displaystyle{\bar{\bar Y}=\frac{Y}{M_0}=\frac{1}{M_0}\sum_{i=1}^{N}\sum_{j=1}^{M_i}Y_{ij}}\),第\(i\)个PSU按SSU的均值为\(\displaystyle{\bar Y_i=\frac{Y_i}{M_i}=\frac{1}{M_i}\sum_{j=1}^{M_i}Y_{ij}}\)。

总体PSU间的方差记作\(\displaystyle{S_1^2=\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2}\),注意没有\(M_i\)项;总体第\(i\)个PSU内SSU间的方差为\(\displaystyle{S_{2i}^2=\frac{1}{M_i-1}\sum_{j=1}^{M_i}(Y_{ij}-\bar{Y_i})^2}\),方差均值为\(\displaystyle{S_2^2=\frac{1}{N}\sum_{i=1}^{N}S_{2i}^2}\)。

各样本的参数均为总体的小写。

两阶段抽样估计量的均值和方差

下述定理对任何估计量\(\hat\theta\)都是成立的。

定理:对于两阶段抽样,有

\[\mathbb{E}(\hat \theta)=\mathbb{E}_1[\mathbb{E}_2(\hat\theta)], \\ \mathbb{D}(\hat\theta)=\mathbb{D}_1[\mathbb{E}_2(\hat\theta)]+\mathbb{E}_1[\mathbb{D}_2(\hat\theta)]. \]

其中,\(\mathbb{E}_2,\mathbb{D}_2\)分别表示在固定初级单元时,对第二阶段抽样的均值和方差;\(\mathbb{E}_1,\mathbb{D}_1\)分别表示对第一阶段抽样的均值和方差。

以上定理是全期望公式在两阶段抽样的特殊形式,如果定义\(T\)为抽取的初级单元,则有

\[\mathbb{E}(\hat\theta)=\mathbb{E}[\mathbb{E}(\hat\theta|T)]\xlongequal{def}\mathbb{E}_1[\mathbb{E}_2(\hat\theta)]. \]

方差是另一形式的期望,记\(\mathbb{E}(\hat\theta)=\theta\),则

\[\begin{aligned} \mathbb{D}(\hat\theta)&=\mathbb{E}(\hat\theta-\theta)^2\\ &=\mathbb{E}_1[\mathbb{E}_2(\hat\theta-\theta)^2]\\ &=\mathbb{E}_1[\mathbb{E}_2(\hat\theta^2-2\theta\hat\theta+\theta^2)]\\ &=\mathbb{E}_1[\mathbb{E}_2(\hat\theta^2)]-\mathbb{E}_1[2\theta\mathbb{E}_2(\hat\theta)]+\theta^2\\ &=\mathbb{E}_1[\mathbb{D}_2(\hat\theta)+(\mathbb{E}_2(\hat\theta))^2]-\theta^2\\ &=\mathbb{E}_1[\mathbb{E}_2(\hat\theta)]^2+\mathbb{E}_1[\mathbb{D}_2(\hat\theta)]-\{\mathbb{E}_1[\mathbb{E}_2(\hat\theta)]\}^2\\ &=\mathbb{E}_1[\mathbb{D}_2(\hat\theta)]+\mathbb{D}_1[\mathbb{E}_2(\hat\theta)]. \end{aligned} \]

以后记\(\mathbb{E}_1[\mathbb{E}_2(\theta)]=\mathbb{E}_1\mathbb{E}_2(\hat\theta)\)。

初级单元规模相等的两阶段抽样 均值估计

此时,初级单元中,二级单元个数相等为\(M\)。第一阶段从包含\(N\)个初级单元的总体中以简单随机抽样抽取\(n\)个初级单元,第二阶段在每个被抽中的初级单元所包含的\(M\)个二级单元中,以简单随机抽样抽取\(m\)个二级单元。注意到两个阶段的抽样都是简单随机抽样,因此都具有抽样比,第一阶段的抽样比记作\(f_1=\dfrac{n}{N}\),第二阶段的抽样比记作\(f_2=\dfrac{m}{M}\)。

此时,总体均值的估计为

\[\hat{\bar{\bar Y}}=\bar{\bar y}=\frac{1}{n}\sum_{i=1}^{n}\bar {y}_i=\frac{1}{nm}\sum_{i=1}^{n}\sum_{j=1}^{m}\bar y_{i}. \]

要注意此估计量的前一种形式,这相当于对群均值\(\bar{y}_i\)抽样的简单估计。

定理:

\(\bar{\bar y}\)是\(\bar{\bar Y}\)的无偏估计。

\(\bar{\bar y}\)的方差为

\[\mathbb{D}(\bar{\bar y})=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}S_2^2. \]

由于两个阶段都是简单随机抽样,故

\[\begin{aligned} \mathbb{E}(\bar{\bar y})&=\mathbb{E}_1\mathbb{E}_2(\bar{\bar y})\\ &=\mathbb{E}_1\mathbb{E}_2\left(\frac{1}{n}\sum_{i=1}^{n}\bar{y}_i \right)\\ &=\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}_2(\bar{y}_i) \right)\\ &=\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\bar{Y}_i \right)\\ &=\bar{\bar Y}. \end{aligned} \]

此式中,\(\mathbb{E}_2(\bar{y}_i)=\bar Y_i\)是因为,此时固定了抽样单元,故\(\bar{y}_i\)是第\(i\)个群的群内简单估计,从而是群内的无偏估计;\(\displaystyle{\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}\bar Y_i \right)=\bar{\bar Y}}\)是因为,此时将每一个群均值视为抽样单元执行简单随机抽样,因为在等规模情况下群均值的均值就是总体均值(上篇文章已证明),故括号内的统计量是简单估计,从而是无偏的。这个抽样性质在下方方差的计算中也将运用。

对于方差,有

\[\begin{aligned} \mathbb{D}(\bar{\bar y})&=\mathbb{D}_1[\mathbb{E}_2(\bar{\bar y})]+\mathbb{E}_1[\mathbb{D}_2(\bar{\bar y})]\\ &=\mathbb{D}_1\left[\frac{1}{n}\sum_{i=1}^{n}\bar{Y}_i \right]+\mathbb{E}_1[\mathbb{D}_2(\bar{\bar y})]\\ &=\frac{1-f_1}{n}\frac{1}{N-1}\sum_{i=1}^{N}(\bar{Y}_i-\bar{\bar Y})^2+\mathbb{E}_1[\mathbb{D}_2(\bar{\bar y})]\\ &=\frac{1-f_1}{n}S_1^2+\mathbb{E}_1[\mathbb{D}_2(\bar{\bar y})]\\ &=\frac{1-f_1}{n}S_1^2+\mathbb{E}_1\left[\mathbb{D}_2\left(\frac{1}{n}\sum_{i=1}^{n}\bar{y}_i \right) \right]\\ &\stackrel{*}=\frac{1-f_1}{n}S_1^2+\mathbb{E}_1\left[\frac{1}{n^2}\sum_{i=1}^{n}\mathbb{D}_2(\bar y_i) \right]\\ &=\frac{1-f_1}{n}S_1^2+\frac{1}{n^2}\mathbb{E}_1\sum_{i=1}^{n}\left[\frac{1-f_2}{m}\frac{1}{M-1}\sum_{j=1}^{M}(Y_{ij}-\bar{Y}_i)^2\right]\\ &=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}S_{2i}^2\right)\\ &=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}\left(\frac{1}{N}\sum_{i=1}^{N}S_{2i}^2\right) \\ &=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}S_2^2. \end{aligned} \]

这里应注意\((*)\)式成立,是因为\(\mathbb{D}_2\)的处理是将诸\(i\)视为已知量,即已经选定了抽取的样本,从而每一个\(\mathbb{D}_2(\bar {y}_i)\)应独立于\(\mathbb{E}_1\)计算。

方差估计

由于\(S_1^2\)与\(S_2^2\)未知,故\(\mathbb{D}(\bar{\bar y})\)未知,需要对其进行估计。但此时不能简单使用\(s_1^2,s_2^2\)直接替代。

定理:\(\mathbb{D}(\bar{\bar y})\)的无偏估计为

\[v(\bar{\bar y})=\frac{1-f_1}{n}s_1^2+\frac{f_1(1-f_2)}{nm}s_2^2. \]

这里

\[s_1^2=\frac{1}{n-1}\sum_{i=1}^{n}(\bar y_i-\bar{\bar y})^2 ,\\ s_{2i}^2=\frac{1}{m-1}\sum_{j=1}^{m}(y_{ij}-\bar{y}_i)^2,\\ s_2^2=\frac{1}{n}\sum_{i=1}^{n}s_{2i}^2. \]

要分别计算\(s_1^2\)和\(s_2^2\)的期望并代回\(v(\bar{\bar y})\),由期望迭代,先计算\(\mathbb{E}_2\),于是

\[\begin{aligned} \mathbb{E}_2[(n-1)s_1^2]&=\mathbb{E}_2\left[\sum_{i=1}^{n}(\bar y_i-\bar{\bar y})^2 \right]\\ &=\sum_{i=1}^{n}\mathbb{E}_2(\bar y_i^2)-n\mathbb{E}(\bar {\bar y}^2)\\ &=\sum_{i=1}^{n}\left\{[\mathbb{E}_2(\bar y_i)]^2+\mathbb{D}(\bar y_i) \right\}-n\left\{[\mathbb{E}_2(\bar{\bar y})]^2+\mathbb{D}_2(\bar {\bar y}) \right\}\\ &=\sum_{i=1}^{n}\bar Y_i^2+\sum_{i=1}^{n}\frac{1-f_2}{m}S_{2i}^2-n\left(\frac{1}{n}\sum_{i=1}^{n}\bar Y_i \right)^2-\frac{1-f_2}{nm}\sum_{i=1}^{n}S_{2i}^2. \end{aligned} \]

记\(\bar{\bar Y}_n=\displaystyle{\frac{1}{n}\sum_{i=1}^{n}\bar Y_i}\),它指的是对于已经选中的群的群均值的均值,与群均值的均值\(\bar{\bar Y}\)不一样。引入此符号后,有

\[\begin{aligned} \mathbb{E}_2[(n-1)s_1^2]&=\sum_{i=1}^{n}(\bar Y_i^2)-n(\bar{\bar Y}_n)^2+\frac{1-f_2}{m}\sum_{i=1}^{n}S_{2i}^2+\frac{1-f_2}{nm}\sum_{i=1}^{n}S_{2i}^2 \\ &=\sum_{i=1}^{n}(\bar Y_i-\bar{\bar Y}_n)^2+\frac{(n-1)(1-f_2)}{nm}\sum_{i=1}^{n}S_{2i}^2. \end{aligned} \]

从而

\[\begin{aligned} \mathbb{E}(s_1^2)&=\mathbb{E}_1\mathbb{E}_2(s_1^2)\\ &=\mathbb{E}_1\left[\frac{1}{n-1}\sum_{i=1}^{n}(\bar Y_i-\bar{\bar Y}_n)^2 \right]+\frac{1-f_2}{m}\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}S_{2i}^2 \right)\\ &=S_1^2+\frac{1-f_2}{m}S_2^2. \end{aligned} \]

对第三个等号,需要注意到\(\displaystyle{\frac{1}{n-1}\sum_{i=1}^{n}(\bar Y_i-\bar{\bar Y}_n)^2}\)实际上是简单随机抽样下的样本方差,因此由第一部分定理,它是\(\displaystyle{S_1^2=\frac{1}{N-1}\sum_{i=1}^{N}(\bar Y_i-\bar{\bar Y})^2}\)的无偏估计;另外\(\displaystyle{\frac{1}{n}\sum_{i=1}^{n}S_{2i}^2}\)是简单随机抽样下的样本均值,它是总体均值\(\displaystyle{S_2^2=\frac{1}{N}\sum_{i=1}^{N}S_{2i}^2}\)的无偏估计。

同理,对于\(s_2^2\),有

\[\begin{aligned} \mathbb{E}_2(s_2^2)&=\mathbb{E}_2\left[\frac{1}{n}\sum_{i=1}^{n}s_{2i}^2 \right]\\ &=\mathbb{E}_2\left[\frac{1}{n(m-1)}\sum_{i=1}^{n}\sum_{j=1}^{m}(y_{ij}-\bar{y}_i)^2 \right]\\ &=\frac{1}{n}\sum_{i=1}^{n}\mathbb{E}_2\left[\frac{1}{m-1}\sum_{j=1}^{m}(y_{ij}-\bar{y}_i)^2 \right]\\ &=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{M-1}\sum_{j=1}^{M}(Y_{ij}-\bar{Y}_i)^2\\ &=\frac{1}{n}\sum_{i=1}^{n}S_{2i}^2,\\ \mathbb{E}(s_2^2)&=\mathbb{E}_1\mathbb{E}_2(s_2^2)\\ &=\mathbb{E}_1\left(\frac{1}{n}\sum_{i=1}^{n}S_{2i}^2 \right)\\ &=\frac{1}{N}\sum_{i=1}^{N}S_{2i}^2\\ &=S_{2}^2. \end{aligned} \]

将\(\displaystyle{\mathbb{E}(s_1^2)=S_1^2+\frac{1-f_2}{m}S_2^2},\mathbb{E}(s_2^2)=S_2^2\)代入\(\mathbb{E}[v(\bar{\bar y})]\)的表达式,就得到

\[\begin{aligned} \mathbb{E}[v(\bar{\bar y})]&=\frac{1-f_1}{n}\mathbb{E}(s_1^2)+\frac{f_1(1-f_2)}{nm}\mathbb{E}(s_2^2)\\ &=\frac{1-f_1}{n}S_1^2+\frac{(1-f_1)(1-f_2)}{nm}S_2^2+\frac{f_1(1-f_2)}{nm}S_2^2\\ &=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}S_2^2\\ &=\mathbb{D}(\bar{\bar y}). \end{aligned} \]

从结果上看,\(v(\bar{\bar y})\)更像是用\(s_1^2,s_2^2\)配凑出的式子。

初等单元规模不等的两阶段抽样 简单估计量

与整群抽样类似,在初等单元规模不等时,常常先估计总体总值,此时

\[\hat Y_{u}=N\frac{1}{n}\sum_{i=1}^{n}\hat Y_i=\frac{N}{n}\sum_{i=1}^{n}M_i\bar{y}_i. \]

定理:

\(\hat Y_{u}\)是\(\hat Y\)的无偏估计。

\(\hat Y_{u}\)的方差为

\[\mathbb{D}(\hat Y_u)=\frac{N^2(1-f_1)}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{Y})^2+\frac{N}{n}\sum_{i=1}^{N}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2. \]

对\(\mathbb{D}(\hat Y_{u})\)的无偏估计为

\[v(\hat {Y}_u)=\frac{N^2(1-f_1)}{n}\frac{1}{n-1}\sum_{i=1}^{n}(\hat Y_i-\hat{\bar Y}_u)^2+\frac{N}{n}\sum_{i=1}^{n}\frac{M_i^2(1-f_{2i})}{m_i}s_{2i}^2. \]

这里

\[\hat{\bar Y}_u=\frac{1}{n}\sum_{i=1}^{n}\hat Y_i. \]

证明过程类似于前面等规模的情形,有

\[\mathbb{E}(\hat Y_u)=\mathbb{E}_1\mathbb{E}_2\left(\frac{N}{n}\sum_{i=1}^{n}M_i\bar y_{i}\right)=\mathbb{E}_1\left(\frac{N}{n}\sum_{i=1}^{n}M_i\bar Y_i \right)=N\frac{1}{N}\sum_{i=1}^{N}Y_i=Y. \]

对于方差,有\(\mathbb{D}(\hat Y_u)=\mathbb{E}_1[\mathbb{D}_2(\hat Y_u)]+\mathbb{D}_1[\mathbb{E}_2(\hat Y_u)]\),从而

\[\begin{aligned} \mathbb{E}_1[\mathbb{D}_2(\hat Y_u)]&=\mathbb{E}_1\left[\mathbb{D}_2\left(\frac{N}{n}\sum_{i=1}^{n}\hat Y_i \right) \right]\\ &=\mathbb{E}_1\left[\frac{N^2}{n^2}\sum_{i=1}^{n}\mathbb{D}_2(\hat Y_i) \right]\\ &=\mathbb{E}_1\left[\frac{N^2}{n^2}\sum_{i=1}^{n}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2 \right]\\ &=\frac{N^2}{n}\mathbb{E}_1\left[\frac{1}{n}\sum_{i=1}^{n}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2\right] \\ &=\frac{N^2}{n}\frac{1}{N}\sum_{i=1}^{N}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2\\ &=\frac{N}{n}\sum_{i=1}^{N}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2. \\ \mathbb{D}_1[\mathbb{E}_2(\hat Y_u)]&=\mathbb{D}_1\left[\mathbb{E}_2\left(\frac{N}{n}\sum_{i=1}^{n}\hat Y_i \right) \right]\\ &=\mathbb{D}_1\left[\frac{N}{n}\sum_{i=1}^{n}Y_i \right]\\ &=N^2\frac{1-f_1}{n}\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar Y)^2.\\ \end{aligned} \]

相加即得到所需结果。

对于\(v(\hat Y_{u})\),同样的证明过程可以得知\(\mathbb{E}(s_2^2)=S_2^2\),同样用期望迭代可以计算得

\[\mathbb{E}\left(\frac{1}{n-1}\sum_{i=1}^{n}(\hat {\bar{Y}_i}-\hat{\bar Y_u})^2 \right)=\frac{1}{N-1}\sum_{i=1}^{N}(Y_i-\bar{Y})^2. \]

比率估计量

与整群估计一致,如果各个\(M_i\)差异很大,会导致简单估计量精度低。以\(M_i\)作为\(Y_i\)的辅助变量,采用比率估计量估计总体总值,得到的估计量\(\hat Y_{R}\)虽然是有偏的,但均方误差比较小。

\[\hat {Y}_{R}=M_0\frac{\sum\limits_{i=1}^{n}M_i\bar{y}_i}{\sum\limits_{i=1}^{n}M_i}=M_0\frac{\sum\limits_{i=1}^{n}\hat Y_{i}}{\sum\limits_{i=1}^{n}M_i},\\ \mathrm{MSE}(\hat Y_{R})\approx \frac{N^2(1-f_1)}{n}\frac{1}{N-1}\sum_{i=1}^{N}M_i^2(\bar{Y}_i-\bar{\bar Y})^2+\frac{N}{n}\sum_{i=1}^{N}\frac{M_i^2(1-f_{2i})}{m_i}S_{2i}^2,\\ v(\hat Y_{R})=\frac{N^2(1-f_1)}{n}\frac{1}{n-1}\sum_{i=1}^{n}M_i^2(\bar{y}_i-\bar{\bar y}_{R})^2+\frac{N}{n}\sum_{i=1}^{n}\frac{M_i^2(1-f_{2i})}{m_i}s_{2i}^2,\\ \bar{\bar y}_{R}=\frac{1}{M_0}\hat Y_{R}=\frac{\sum\limits_{i=1}^{n}M_i\bar y_i}{\sum\limits_{i=1}^{n}M_i}. \]

抽样设计

在设计一个两阶段样本时,需要考虑以下四个问题:

大体需要多高的精度? PSU的规模应该有多大? 在每一个入样的PSU中应抽取多少个SSU? 应抽取多少个PSU?

假定PSU规模相等,考虑费用函数为

\[C=c_0+c_1n+c_2nm, \]

则\(m\)的最优值为

\[m_{opt}=\frac{S_2}{S_u}\sqrt{\frac{c_1}{c_2}},\\ S_u^2=S_1^2-\frac{S_2^2}{M}. \]

再根据\(m_{opt}\)计算\(n\),从而确定最优抽样比\(f_1,f_2\),这里有

\[\begin{aligned} \mathbb{D}(\bar{\bar y})&=\frac{1-f_1}{n}S_1^2+\frac{1-f_2}{nm}S_2^2\\ &=\left(\frac{1}{n}-\frac{1}{N}\right)S_1^2+\frac{1}{n}\left(\frac{1}{m}S_2^2-\frac{1}{M}S_2^2 \right) \\ &=\frac{1}{n}\left(S_1^2-\frac{S_2^2}{M} \right)+\frac{S_2^2}{nm}-\frac{S_1^2}{N}. \end{aligned} \]



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3