抽样调查第05讲(分层抽样:各层样本量的分配、总样本量确定、抽样效果分析)

您所在的位置:网站首页 随机样本样本均值怎么算 抽样调查第05讲(分层抽样:各层样本量的分配、总样本量确定、抽样效果分析)

抽样调查第05讲(分层抽样:各层样本量的分配、总样本量确定、抽样效果分析)

2024-04-21 10:27| 来源: 网络整理| 查看: 265

第三章 分层抽样(续)3.5 各层样本量的分配

本节将考虑在给定总的样本量 n 的条件下,如何确定各层样本量 n1,n2,...,nL.

通常以下有几种分配思路:常数分配;与各层方差成比例;与各层总体总量成比例(也就是和层权成比例);与层权*层标准差成比例。如果要用到各层方差的信息,就需要进行预调查

常数分配是不管三七二十一,每一层的样本量都一样;但如果一层的总量很小,另一层总量很大,那么我们自然想要在大总量的层中多抽取,这就是与层权成比例;而有时候尽管一层的总量很大,但个体间差异不大,这时也没必要多抽取,此时就可以与各层方差成比例抽取;此外也可以结合层权与标准差,与 层权 * 层标准差 成比例抽取。

如下是一次预调查:从 4 个层中各自抽取了 10 个样本的结果

如果按层权成比例,那么第3,4层中样本量还不够11,20,需要再抽取;如果按层权×层标准差,则第3层样本量还不够23,需要再抽取。样本量已经够的层则无需再抽取。

下面我们讨论在各个样本量分配原则下,估计量的性质。

3.5.1 比例分配(按层权分配)

此时每一层的抽样比就等于总的抽样比 n / N:

\frac{n_{h}}{n}=\frac{N_{h}}{N}=W_{h} \quad f_{h}=\frac{n_{h}}{N_{h}}=\frac{n}{N}=f\\

我们对之前介绍过的 \bar{y}_{\text {st }} 进行处理

\begin{aligned} &\bar{y}_{\text {prop }}=\sum_{h=1}^{L} W_{h} \bar{y}_{h}=\sum_{h=1}^{L} \frac{n_{h}}{n} \bar{y}_{h}=\sum_{h=1}^{L} \frac{n_{h}}{n} \frac{1}{n_{h}} \sum_{i=1}^{n_{h}} y_{h}\\ &=\frac{1}{n} \sum_{h=1}^{L} \sum_{i=1}^{n_{h}} y_{h i}=\frac{1}{n} \sum_{i=1}^{n} y_{i}=\bar{y} \end{aligned}\\

将层权换成 n_h/n

可以看到,在比例分配下,分层抽样的均值的简单估计量就是总的样本均值。也就是说,如果我们样本量是按照比例分配,那么估计样本均值时就直接把所有的数据求个平均就可以,无需先求每层平均再进行加权。这样的样本称为自加权样本,总体中每个个体无论处在哪个层,入样的概率都相同。

进一步计算一下均值估计量的方差:

V\left(\bar{y}_{\text {prop }}\right)=\sum_{h=1}^{L} W_{h}^{2} V\left(\bar{y}_{h}\right)=\sum_{h=1}^{L} W_{h} \frac{n_{h}}{n} \frac{1-f_{h}}{n_{h}} S_{h}^{2}=\frac{1-f}{n} \sum_{h=1}^{L} W_{h} S_{h}^{2}\\

将其中的一个层权换成 n_h/n ;将各层的抽样比替换为总的抽样比;

利用 (1-f)/n = 1/n - 1/N 可进一步将其写为

V\left(\bar{y}_{\text {prop }}\right)=\frac{\sum_{h=1}^{L} W_{h} S_{h}^{2}}{n}-\frac{\sum_{h=1}^{L} W_{h} S_{h}^{2}}{N}\\

对于比例的估计,各层的方差为 \[{S_h^2} = \frac{{{N_h}{P_h}\left( {1 - {P_h}} \right)}}{{{N_h} - 1}}\] ,进而

\[V\left( {{{\bar p}_{{\rm{prop }}}}} \right) = \frac{{1 - f}}{n}\sum\limits_{h = 1}^L {{W_h}} \frac{{{N_h}{P_h}\left( {1 - {P_h}} \right)}}{{{N_h} - 1}} \approx \frac{{1 - f}}{n}\sum\limits_{h = 1}^L {{W_h}} {P_h}\left( {1 - {P_h}} \right)\\\]

3.5.2 最优分配(估计量方差达到最小)

假设费用是关于各层样本量的线性函数:

C_{T}=c_{0}+\sum_{h=1}^{L} c_{h} n_{h}\\

c_0 是调查的固定费用,无法通过样本量分配来减少。只考虑 C_T-c_0

为此还是先回到估计量的方差上:

\[\begin{array}{l} V\left( {{{\bar y}_{{\rm{st}}}}} \right) = \sum\limits_{h = 1}^L {W_h^2\frac{{1 - {f_h}}}{{{n_h}}}S_h^2} = \sum\limits_{h = 1}^L {{W_h}\frac{{{N_h}}}{N}\left( {\frac{1}{{{n_h}}} - \frac{1}{{{N_h}}}} \right)S_h^2} \\ = \sum\limits_{h = 1}^L {\left( {{W_h}\frac{{{N_h}}}{N}\frac{1}{{{n_h}}}S_h^2 - {W_h}\frac{{{N_h}}}{N}\frac{1}{{{N_h}}}S_h^2} \right)} \end{array}\\\]

利用 Wh = Nh/N,(1-f)/n = 1/n - 1/N

可以看到,第二项与各层样本量 nh 无关,是个固定的量。

记方差公式中的第一项为 V。为了同时优化费用、方差,我们构造目标: C'V',即费用和方差的乘积:

C^{\prime} V^{\prime}=\left(C_{T}-c_{0}\right)\left(V+\sum_{h=1}^{L} \frac{W_{h}}{N} S_{h}^{2}\right)\\

定理:使得上面的目标函数达到最小的样本量分配方案为

\frac{n_{h}}{n}=\frac{W_{h} S_{h} / \sqrt{c_{h}}}{\sum_{h=1}^{L} W_{h} S_{h} / \sqrt{c_{h}}}=\frac{N_{h} S_{h} / \sqrt{c_{h}}}{\sum_{h=1}^{L} N_{h} S_{h} / \sqrt{c_{h}}} \quad h=1, \ldots, L\\

从结果上看,各层样本量与 W*S,即层权* 层标准差 成正比,与费用权重系数的平方成反比。

分母只是个正则化常数,别被吓到,只要看分子,分析样本量和什么成比例即可。

证明:首先利用层权的定义,乘一除一 得到

\[\frac{{{W_h}}}{N} = \frac{{W_h^2}}{N} \cdot \frac{N}{{{N_h}}} = \frac{{W_h^2}}{{{N_h}}}\\\]

将目标C'V'中的第二项利用上式进行处理,并将 C_T 定义代入得到

V'C'=\left( V+\frac{1}{N}\sum_{h=1}^L{W_h}S_{h}^{2} \right) \left( C_T-c_0 \right) =\left( \sum_{h=1}^L{\frac{W_{h}^{2}}{n_h}}S_{h}^{2} \right) \left( \sum_{h=1}^L{c_h}n_h \right) \\

接下来使用柯西施瓦兹不等式 \left(\sum a_{h}^{2}\right)\left(\sum b_{h}^{2}\right) \geq\left(\sum a_{h} b_{h}\right)^{2} 得到:

\[\begin{array}{l} \left( {\sum\limits_{h = 1}^L {\frac{{W_h^2}}{{{n_h}}}} S_h^2} \right)\left( {\sum\limits_{h = 1}^L {{c_h}} {n_h}} \right) = \left( {\sum\limits_{h = 1}^L {{{\left( {\frac{{{W_h}}}{{\sqrt {{n_h}} }}{S_h}} \right)}^2}} } \right)\left( {\sum\limits_{h = 1}^L {{{\left( {\sqrt {{c_h}{n_h}} } \right)}^2}} } \right)\\ \ge {\left[ {\sum\limits_{h = 1}^L {\left( {\frac{{{W_h}}}{{\sqrt {{n_h}} }}{S_h} \cdot \sqrt {{c_h}{n_h}} } \right)} } \right]^2} = {\left[ {\sum\limits_{h = 1}^L {\left( {{W_h}{S_h}\sqrt {{c_h}} } \right)} } \right]^2} \end{array}\\\]

最后得到了一个常值下界,柯西施瓦兹不等式取等条件为 a_h/b_h 为定值,即

\[\frac{{\sqrt {{c_h}{n_h}} }}{{{W_h}{S_h}/\sqrt {{n_h}} }} = \frac{{{n_h}\sqrt {{c_h}} }}{{{W_h}{S_h}}} = K\\\]

这也就证明了定理的结论:各层样本量与层权成正比,与各层标准差成正比,与该层费用系数的平方成反比。

由该定理可以得出一些熟悉的结论,如果某层满足:

单元数较多内部差异较大费用比较省

那么应该多抽取该层。

如果费用函数不是线性的,可以用卡尔松不等式求得一个目标函数的下界,假设费用函数是

C_{T}=c_{0}+\sum_{h=1}^{L} c_{h} \sqrt{n_{h}}\\

那么极小化目标为

\min \sum_{h=1}^L{\frac{1}{n_n}W_{h}^{2}S_{h}^{2}}\sum_{h=1}^L{c_h\sqrt{n_h}}\Leftrightarrow \min \left( \sum_{h=1}^L{n_h} \right) \left( \sum_{h=1}^L{\frac{1}{n_n}W_{h}^{2}S_{h}^{2}} \right) ^2\left( \sum_{h=1}^L{c_h\sqrt{n_h}} \right) ^2 \\

利用卡尔松不等式:

\begin{aligned} \left(\sum_{h=1}^{L} n_{h}\right)\left(\sum_{h=1}^{L} \frac{1}{n_{n}} W_{h}^{2} S_{h}^{2}\right)^{2}\left(\sum_{h=1}^{L} c_{h} \sqrt{n_{h}}\right)^{2} &=\left(\sum_{h=1}^{L} n_{h}\right)\left(\sum_{h=1}^{L} \frac{1}{n_{n}} W_{h}^{2} S_{h}^{2}\right)\left(\sum_{h=1}^{L} \frac{1}{n_{n}} W_{h}^{2} S_{h}^{2}\right)\left(\sum_{h=1}^{L} c_{h} \sqrt{n_{h}}\right)\left(\sum_{h=1}^{L} c_{h} \sqrt{n_{h}}\right) \\ & \geq\left[\sum_{h=1}^{L}\left(n_{h} \cdot \frac{1}{n_{n}} W_{h}^{2} S_{h}^{2} \cdot \frac{1}{n_{n}} W_{h}^{2} S_{h}^{2} \cdot c_{h} \sqrt{n_{h}} \cdot c_{h} \sqrt{n_{h}}\right)^{1 / 5}\right]^{5} \\ &=\left(\sum_{h=1}^{L}\left(W_{h}^{4} S_{h}^{4} c_{h}^{2}\right)^{1 / 5}\right)^{5} \end{aligned}\\

卡尔松不等式的形式:

\prod_{i=1}^n{\left( \sum_{j=1}^m{a_{ij}} \right)}\ge \left( \sum_{j=1}^m{\prod_{i=1}^n{\left( a_{ij} \right) ^{1/n}}} \right) ^n \\

n 项求和式的连乘积 ≥ n 个求和式的通项连乘, 开n次方, 再求和取n次方.2 项情形就是柯西不等式

取等号的条件是所有求和的通项成比例,但这里似乎没法取到等号。

注意:用拉格朗日乘数法可以解决!构造拉格朗日函数

\sum_{h=1}^L{\frac{W_{h}^{2}S_{h}^{2}}{n_h}-\lambda \left( C_T-c_0-\sum_{h=1}^h{c_h\sqrt{n_h}} \right)} \\

对 nh 求偏导,并令导数为 0 得到

-\frac{W_{h}^{2}S_{h}^{2}}{n_{h}^{2}}-\lambda c_h\frac{1}{2\sqrt{n_h}}=0 \\

由于我们只关注 nh 和什么成比例,所以把其中的常数和 λ 统统忽略进而得到

n_h\propto \sqrt[3]{W_{h}^{4}S_{h}^{4}/c_{h}^{2}} \\

3.5.3 Neyman分配(最优分配中假定各层费用相同)

如果在3.5.2中假定各层的费用系数都是相同的,就得到了 Neyman分配。每层的样本量与层权与层标准差的乘积成正比

接下来具体考察 Neyman 分配下估计量的方差。

定理:Neyman分配下,均值估计量的方差为

V_{\min}\left( \bar{y}_{st} \right) =\frac{1}{n}\left( \sum_{h=1}^L{W_hS_h} \right) ^2-\frac{1}{N}\sum_{h=1}^L{W_h}S_{h}^{2} \\

证明:在 Neyman 分配下,样本量与 层权×层标准差 成正比,利用总样本量为 n 可得各层的样本量为

\[{n_h} = n\frac{{{W_h}{S_h}}}{{\sum\limits_{h = 1}^L {{W_h}{S_h}} }} = n\frac{{{N_h}{S_h}}}{{\sum\limits_{h = 1}^L {{N_h}{S_h}} }}\\\]

前面3.5.2节中我们已经利用 (1-f)/n = 1/n - 1/N 得到了

\[V\left( {{{\bar y}_{{\rm{st}}}}} \right){\rm{ = }}\sum\limits_{h = 1}^L {\left( {{W_h}\frac{{{N_h}}}{N}\frac{1}{{{n_h}}}S_h^2 - {W_h}\frac{1}{N}S_h^2} \right)} \\\]

将其与定理中的结果进行比较发现,两者第二项是相同的,只要证明第一项也相同即可。事实上只需把 n_h 的表达式代入便可得到:

\[\begin{array}{l} \sum\limits_{h = 1}^L {{W_h}\frac{{{N_h}}}{N}\frac{1}{{{n_h}}}S_h^2} = \sum\limits_{h = 1}^L {{W_h}\frac{{{N_h}}}{N}\frac{1}{n}\frac{{\sum\limits_{h = 1}^L {{W_h}{S_h}} }}{{{W_h}{S_h}}}S_h^2} \\ = \frac{1}{n}\sum\limits_{h = 1}^L {\frac{{{N_h}}}{N}{S_h}\sum\limits_{h = 1}^L {{W_h}{S_h}} } = \frac{1}{n}{\left( {\sum\limits_{h = 1}^L {{W_h}{S_h}} } \right)^2} \end{array}\\\]

W_h = N_h/N 别忘了,上面推导并没有做除了约分以外的事情。

总结一下:公式虽然多,但推导过程核心就在于 (1-f)/n = 1/n - 1/N,以及层权与各层总量之间的关系。有时候式子中带有层权的平方,需要将其中一个层权用各层总量/总体总量替换。

其实无论是比例分配、最优分配、内曼分配,最后的结论都是非常容易记忆的,因为它非常符合我们的直观认知,甚至你无需经过这些复杂的推导直接记忆结论都可以很轻松地完成相应的习题或者是做实际的应用。但正如我刚开始看到这些公式时那样,如果你不真正去推导出来,你就会被这些名词以及复杂的公式吓住而忽视了其中本质的含义,直到你亲自推导或遇到一个亲自推导并愿意把结论分享给你的人。

3.5.4 最优分配下抽样比大于 1 的修正(不考)

有时候我们本身就需要抽取较多的样本,如果有些层的方差很大、费用也不高,那么通过最优分配计算很可能给该层分配的样本量超出了该层总量。

如果出现这种情况,对该层我们就全部抽取,计算出还需要多少样本量,再经由最优分配到其他各层中。如果第二轮最优分配下,各层样本量都不超过总量,那么就可以结束。否则还需对异常层进行全部抽取,再将剩余样本量最优分配到各层。

此时估计量的方差为

V_{\min }\left(\bar{y}_{s t}\right)=\frac{\left(\Sigma^{\prime} W_{h} S_{h}\right)^{2}}{n^{\prime}}-\frac{\sum^{\prime} W_{h} S_{h}^{2}}{N}\\

\Sigma^{\prime} 表示只对那些样本量小于总量的层进行求和,因为样本量等于总量的层方差为零,而层间又是相互独立的。3.5.5 如果不是最优分配,那么方差会有很大影响吗?(不考)

按照最优分配公式计算得到的样本量往往不会恰好为整数,我们要进行四舍五入来得到一个整数。现在考察这样做是否会对估计量的方差产生较大影响。

假定实际各层的样本量为 \hat{n}_{h} ,均值估计量的方差为

V\left(\bar{y}_{s t}\right)=\sum_{h=1}^{L} \frac{1}{\hat{n}_{h}} W_{h}^{2} S_{h}^{2}-\frac{1}{N} \sum_{h=1}^{L} W_{h} S_{h}^{2}\\

上面的公式第三次在本文中出现。

将实际的方差与理论的最小方差作差得到

\[\begin{array}{l} V\left( {{{\bar y}_{st}}} \right) - {V_{\min }}\left( {{{\bar y}_{st}}} \right) = \sum\limits_{h = 1}^L {\frac{1}{{{{\hat n}_h}}}} W_h^2S_h^2 - \frac{1}{n}{\left( {\sum\limits_{h = 1}^L {{W_h}} {S_h}} \right)^2}\\ = \sum\limits_{h = 1}^L {\frac{{n_h^2}}{{{n^2}{{\hat n}_h}}}} {\left( {\sum\limits_{h = 1}^L {{W_h}} {S_h}} \right)^2} - \frac{1}{n}{\left( {\sum\limits_{h = 1}^L {{W_h}} {S_h}} \right)^2}\\ = \frac{1}{{{n^2}}}{\left( {\sum\limits_{h = 1}^L {{W_h}} {S_h}} \right)^2}\left[ {\sum\limits_{h = 1}^L {\frac{{{{\left( {{{\hat n}_h} - {n_h}} \right)}^2}}}{{{{\hat n}_h}}}} } \right]\\ = \frac{1}{{{n^2}}}{\left( {\sum\limits_{h = 1}^L {{W_h}} {S_h}} \right)^2}\sum\limits_{h = 1}^L {{{\hat n}_h}} g_h^2 \end{array}\\\]

第一步注意到方差表达式的第二项与各层样本量的选取无关,两者是一样的,只剩第一项之差;第二步利用最优样本量 n_h 的表达式,将求和中的 \[W_h^2S_h^2\] 消去;第三步比较巧妙,利用了 \hat{n}_h 与 n_h 求和都为 n:\[\sum\limits_{h = 1}^L {\frac{{{{\left( {{{\hat n}_h} - {n_h}} \right)}^2}}}{{{{\hat n}_h}}}} = \sum\limits_{h = 1}^L {\frac{{\hat n_h^2 - 2{n_h}{{\hat n}_h} + n_h^2}}{{{{\hat n}_h}}}} = \sum\limits_{h = 1}^L {\frac{{n_h^2}}{{{{\hat n}_h}}} - n} \\\] 最后一步引进 \[{g_h} = \frac{{\left| {{{\hat n}_h} - {n_h}} \right|}}{{{{\hat n}_h}}}\]

另一方面,在最小方差中假定总体总量非常大,那么

\[\begin{array}{l} {V_{\min }}\left( {{{\bar y}_{st}}} \right) = \frac{1}{n}{\left( {\sum\limits_{h = 1}^L {{W_h}} {S_h}} \right)^2} - \frac{1}{N}\sum\limits_{h = 1}^L {{W_h}} S_h^2 \approx \frac{1}{n}{\left( {\sum\limits_{h = 1}^L {{W_h}} {S_h}} \right)^2}\\ \Rightarrow \frac{{{V_{\min }}\left( {{{\bar y}_{st}}} \right)}}{n} \approx \frac{1}{{{n^2}}}{\left( {\sum\limits_{h = 1}^L {{W_h}} {S_h}} \right)^2} \end{array}\\\]

用差式除以最小方差,得到

\[\frac{{V\left( {{{\bar y}_{st}}} \right) - {V_{\min }}\left( {{{\bar y}_{st}}} \right)}}{{{V_{\min }}\left( {{{\bar y}_{st}}} \right)}} \approx \sum\limits_{h = 1}^L {\frac{{{{\hat n}_h}}}{n}} g_h^2 \le \max \left\{ {g_h^2} \right\} \buildrel \Delta \over = {g^2}\\\]

利用 \[\sum\limits_{h = 1}^L {\frac{{{{\hat n}_h}}}{n}} = 1\] 来得到“≤”

以上得到的 g^2 便是方差增大的上界,观察 g 的表达式,它是实际样本量与理论样本量的相对误差。而四舍五入下,分子不会超过0.5,并且分母通常也比较大,所以 g^2 一般不大。

但用 g^2 作为上界有时候太过于保守,这就好比我们用切比雪夫不等式来估计随机变量大于一个数的概率一样。

对于第三层,其 g 为 0.43,g2 为 0.18,也就是说由 g2 给出方差相对增量的上界是 18%。但实际上,方差的增量为 32.9/340 = 9.7%,高估了将近一倍。

从这个例子中也可以看出,哪怕实际的样本量偏离最优样本量比较多,最后方差的影响也不是很大。

3.5.6 多变量情形(不考)

实际应用中我们不会只调查一个问题,除了我们最关心的问题,还会有一些辅助的变量。如果我们每个变量都去求最优分配,那么每个变量都有不同的样本量分配,处理起来会相对麻烦。

比例分配

比例分配是处理多变量的一种常用手段,它不关心各变量在各层的方差,而只关心各层的总量,处理起来非常方便。

平均法

如果我们的确需要利用最优分配来使方差缩小,那么可以在“方便”与“精度”之间进行折中。

做法:对我们所关注的 k 个变量都求出对应的最优分配,最终的样本量分配就是这 k 个变量分配给各层的样本量的平均。

查特吉方法

我们最后的调查对于每个问题都采用同一样本量分配方案,这就不可避免地造成某些问题的调查并不是最优分配,相应地会有一个方差的增加量,自然地会希望所有问题的方差增加量达到最小。

利用之前的结果,第 j 个问题的方差相对增量为

R V_{j} \hat{=} \frac{V_{j}\left(\bar{y}_{s t}\right)-V_{j \min }\left(\bar{y}_{s t}\right)}{V_{j \min }\left(\bar{y}_{s t}\right)} \approx \frac{1}{n} \sum_{h=1}^{L} \frac{\left(n_{h}-n_{j h}\right)^{2}}{n_{h}}=\frac{1}{n} \sum_{h=1}^{L} \frac{n_{j h}^{2}}{n_{h}}-1, j=1,2, \ldots, k\\

其中约等号部分利用之前的公式,将 \hat{n}_h 替换为 n_{h} , n_h 替换为 n_{jh} :

\[\sum\limits_{h = 1}^L {\frac{{{{\hat n}_h}}}{n}} g_h^2 \to \sum\limits_{h = 1}^L {\frac{{{n_h}}}{n}} g_h^2 \to \sum\limits_{h = 1}^L {\frac{{{n_h}}}{n}\frac{{{{\left( {{n_h} - {n_{jh}}} \right)}^2}}}{{n_h^2}} \to \sum\limits_{h = 1}^L {\frac{1}{n}\frac{{{{\left( {{n_h} - {n_{jh}}} \right)}^2}}}{{{n_{h}}}}} } \\\]

注意: n_h 是实际样本量, n_{jh} 是理论样本量

对每个特征都可以计算上面的方差增量,求平均后进行极小化,等价于

\[\min \sum\limits_{j = 1}^k {\sum\limits_{h = 1}^L {\frac{{n_{jh}^2}}{{{n_h}}}} } = \min \sum\limits_{h = 1}^L {\frac{1}{{{n_h}}}\sum\limits_{j = 1}^k {n_{jh}^2} }\\ \]

其中 n_{jh} 是已知的,要确定的是 n_h 。接下来技巧性比较强,首先将 n 写为 n_h 求和添到上式中,这并不影响极小化目标。然后利用柯西施瓦兹不等式

\[\begin{array}{l} \left( {\sum\limits_{h = 1}^L {{n_h}} } \right)\left( {\sum\limits_{h = 1}^L {\frac{1}{{{n_h}}}\sum\limits_{j = 1}^k {n_{jh}^2} } } \right) = \left( {\sum\limits_{h = 1}^L {{{\left( {\sqrt {{n_h}} } \right)}^2}} } \right)\left( {\sum\limits_{h = 1}^L {{{\left( {\sqrt {\frac{1}{{{n_h}}}\sum\limits_{j = 1}^k {n_{jh}^2} } } \right)}^2}} } \right)\\ \ge {\left[ {\sum\limits_{h = 1}^L {\left( {\sqrt {{n_h}} \cdot \sqrt {\frac{1}{{{n_h}}}\sum\limits_{j = 1}^k {n_{jh}^2} } } \right)} } \right]^2} = {\left[ {\sum\limits_{h = 1}^L {\sqrt {\sum\limits_{j = 1}^k {n_{jh}^2} } } } \right]^2} \end{array}\\\]

柯西施瓦兹:平方和的乘积 ≥ 乘积和的平方

最终得到一个常值下界,取等条件为

\[\sqrt {{n_h}} = K\sqrt {\frac{1}{{{n_h}}}\sum\limits_{j = 1}^k {n_{jh}^2} } \Rightarrow {n_h} = K\sqrt {\sum\limits_{j = 1}^k {n_{jh}^2} } \\\]

各层样本量与 k 个变量在该层的样本量的平方和开根号成比例

花费这么大的力气,得到的结果和平均法却非常相似。在平均法里,各层样本量直接取为 k 个变量在该层样本量的平均,查特吉法则是先求平方和后再开方,也能称得上是某种意义上的“平均”。耶茨方法一

如果不同变量的最优分配彼此差别很大,没有明显的折中结果,就需要引入一些分配准则。

耶茨方法一的目的是使所有变量估计量的方差加权和达到最小(可以给重要的变量赋予高权重,也可以给预期方差大的问题设定高权重)。

方差加权和为

\[\begin{array}{*{20}{l}} {{L_T} = \sum\limits_{j = 1}^k {{a_j}} V\left( {{{\bar y}_{j,st}}} \right) = \sum\limits_{j = 1}^k {{a_j}} \sum\limits_{h = 1}^L {W_h^2} S_{jh}^2\left( {\frac{1}{{{n_h}}} - \frac{1}{{{N_h}}}} \right)}\\ \begin{array}{l} = \sum\limits_{h = 1}^L {\frac{{W_h^2}}{{{n_h}}}} \left( {\sum\limits_{j = 1}^k {{a_j}} S_{jh}^2} \right) - \frac{1}{N}\sum\limits_{h = 1}^L {{W_h}} \left( {\sum\limits_{j = 1}^k {{a_j}} S_{jh}^2} \right)\\ \hat = \sum\limits_{h = 1}^L {\frac{{W_h^2}}{{{n_h}}}} \left( {\sum\limits_{j = 1}^k {{a_j}} S_{jh}^2} \right) - {L_0} \end{array} \end{array}\\\]

第三个等号是求和指标的交换,并拆成两项,第二项一个层权与 N_h 约掉得到 N ;注意到第三个等号得到的式子中,第二项是一个已知的量,记作 L0

如果将线性费用考虑进来,同时优化费用和方差:

\left(C_{T}-c_{0}\right)\left(L_{T}+L_{0}\right)=\left(\sum_{h=1}^{L} c_{h} n_{h}\right)\left(\sum_{h=1}^{L} \frac{W_{h}^{2}}{n_{h}} \sum_{j=1}^{k} a_{j} S_{j h}^{2}\right)\\

因为 L0 是定值,所以选择优化 L_T+L_0

与3.5.2节最优分配的方法一样,利用柯西施瓦兹不等式(现在应该很自然会想到用这个了),取到下界的条件是

\[{c_h}{n_h} = K\frac{{W_h^2}}{{{n_h}}}\sum\limits_{j = 1}^k {{a_j}} S_{jh}^2\\\]

整理一下得到

\[{n_h} = K\frac{{{W_h}\sqrt {\sum\limits_{j = 1}^k {{a_j}} S_{jh}^2} }}{{\sqrt {{c_h}} }}\\\]

此时各层样本量依然和层权成正比,与费用系数的平方成反比。但原先的标准差换成了一个加权之后的结果。

耶茨方法二

当每个问题都有一个最大方差的约束,可以用该方法。

\sum_{h=1}^{L} \frac{W_{h}^{2} S_{j h}^{2}}{n_{h}}-\sum_{h=1}^{L} \frac{W_{h} S_{j h}^{2}}{N} \leq V_{j}, j=1,2, \ldots, k ; \text { 及0 } \leq n_{h} \leq N_{h}, h=1,2, \ldots, l\\

希望在满足该约束条件下,使得总费用达到最小,这就成了一个优化问题。可以使用线性规划方法求解,这里介绍如何用耶茨方法一来得到近似解。

思路:如果一个问题的方差约束很松,那么在耶茨方法一中它的方差权重应该比较小,那么取第 j 个问题的权重与 1/V_j 成正比即可。

总体总量很大,现在研究两个问题,要求第一个问题的方差不超过0.04,第二个问题的方差不超过0.01,试分配样本量。

:首先确定总样本量:

由于 N 很大,估计量方差的第二项近似为 0

\[{V_{\min }}\left( {{{\bar y}_{st}}} \right) = \frac{1}{n}{\left( {\sum\limits_{h = 1}^L {{W_h}} {S_h}} \right)^2} - \frac{1}{N}\sum\limits_{h = 1}^L {{W_h}} S_h^2 \approx \frac{1}{n}{\left( {\sum\limits_{h = 1}^L {{W_h}} {S_h}} \right)^2} \le {V_j}\\\]

整理得到

n\geq\frac{1}{V}\left(\sum_{h=1}^{L} W_{h} S_{h}\right)^{2}\\

但这里的 V 如果是分别取 0.04 或 0.01,得到的 n 分别为 625 和 676。再按内曼分配对第一个问题不满足方差约束。

因此考虑两个问题进行“整合”,取 a1=0.2,a2=0.8(与方差约束的倒数成比例,且和为 1),计算加权后的方差

L_{T}=a_{1} V_{1}+a_{2} V_{2}=0.2 \times 0.04+0.8 \times 0.01=0.016\\

同样可以得到“整合”后的信息在各层的标准差 A_h ,进而确定总样本量为

n=\frac{1}{L_{T}}\left(\sum_{h=1}^{4} W_{h} A_{h}\right)^{2}=\frac{3.416^{2}}{0.016}=729\\

然后计算 W_hA_h ,只需用各层样本量按照这个比例分配即可。

表中 n_h 为用耶茨方法一的近似结果, n_h' 为使用线性规划方法迭代求解的结果,可以看到两者差别并不大。3.6 总样本量的确定

3.5节是在总样本量确定的条件下,考虑各层样本量的分配问题。本节将讨论如何确定总样本量。

3.6.1 精度限制

假设 n_{h}=nw_{h} ,在3.5节中已经解决了 w_h 的问题,接下来我们在 w_h 给定的前提下求解最优的 n。一般我们会对精度有要求,但精度问题最终都会归结到方差上。

回顾一下,方差、绝对误差限、相对误差限有如下关系,其中 t 为正态分布上 α/2 分位数V=(d / t)^{2}=(r \bar{Y} / t)^{2}\\

估计量的方差为

\[V = \sum\limits_{h = 1}^L {W_h^2} \frac{{1 - {f_h}}}{{{n_h}}}S_h^2 = \sum\limits_{h = 1}^L {\frac{{W_h^2}}{{{n_h}}}} S_h^2 - \sum\limits_{h = 1}^L {\frac{{W_h^2}}{{{N_h}}}} S_h^2 = \frac{1}{n}\sum\limits_{h = 1}^L {\frac{{W_h^2}}{{{w_h}}}} S_h^2 - \frac{1}{N}\sum\limits_{h = 1}^L {\frac{{W_h^2}}{{{W_h}}}} S_h^2\\\]

前面两步不用多说,最后一步利用 n_{h}=nw_{h}

从中可以解出 n 关于 V 的表达式

n=\frac{\sum W_{h}^{2} S_{h}^{2} / w_{h}}{V+\sum W_{h} S_{h}^{2} / N}\\

当然也可以把 V 换成绝对误差限或相对误差限。

然后分别考虑3.5节中不同分配方案的 w_h 在这个公式中的表现。但我认为最后得到的那些公式根本无需记忆,我们肯定是先算出 w_h 的具体数值,然后代入上面这个一般的公式计算总样本量。此外,如果公式中的 V 换成 d 或 r,那么总共就有 3*3=9 个公式,但本质上就是上面这个公式,没必要再单独放上来。

对下面三层总体,要求估计量的方差不超过0.1,试求总样本量以及各层分配,并计算调查的最低费用(取费用函数中c0=0)

:按照最优分配,计算相关量

最优分配:与 \mathrm{W}_{\mathrm{h}} \mathrm{S}_{\mathrm{h}} / \sqrt{\mathrm{c}_{\mathrm{h}}} 成比例

带到公式中

n=\frac{\sum W_{h}^{2} S_{h}^{2} / w_{h}}{V+\sum W_{h} S_{h}^{2} / N}\approx26\\

进而

\mathrm{n}_{1}=\mathrm{n} \mathrm{w}_{1}=16, \mathrm{n}_{2}=\mathrm{nw}_{2}=7, \mathrm{n}_{3}=\mathrm{nw}_{3}=3\\

最低费用为

C_{\min }=16 \times 9+7 \times 25+3 \times 36=427\\

如果要求95%水平下相对误差不超过10%,按照比例分配和内曼分配的总样本量分别是多少?

:首先将相对误差问题转变为方差问题:

V=\left(\frac{r \bar{y}_{s t}}{t}\right)^{2}\\

分别计算比例分配和内曼分配对应的 w_h ,代入公式即可

n=\frac{\sum W_{h}^{2} S_{h}^{2} / w_{h}}{V+\sum W_{h} S_{h}^{2} / N}\\

这部分只是公式看起来比较多,实际没有什么技术含量。3.6.2 总费用限制

考虑最优分配,其中各层样本量为

n_{h}=K \frac{W_{h} S_{h}}{\sqrt{c_{h}}}\\

如果此时给定总费用 C,那么我们可以直接计算得到其中的比例系数 K:

C-c_{0}=\sum_{h=1}^{L} c_{h} n_{h}=K \sum_{h=1}^{L} \sqrt{c_{h}} W_{h} S_{h}\\

第二个等号将 n_h 进行替换

从中可以解得

K=\frac{C-c_{0}}{\sum_{h=1}^{L} \sqrt{c_{h}} W_{h} S_{h}}\\

进而

n_{h}=\frac{C-c_{0}}{\sum_{h=1}^{L} \sqrt{c_{h}} W_{h} S_{h}} \frac{W_{h} S_{h}}{\sqrt{c_{h}}}\\

上面的式子对 h 求和便得到总样本量 n.

3.6.3 比例估计问题

没有大的变化,只要知道此时有

\[S_h^2 = \frac{{{N_h}{P_h}\left( {1 - {P_h}} \right)}}{{{N_h} - 1}} \approx {P_h}\left( {1 - {P_h}} \right)\\\]

将其代入前面的公式中

\[n = \frac{{\sum {W_h^2} S_h^2/{w_h}}}{{V + \sum {{W_h}} S_h^2/N}} \approx \frac{{\sum {W_h^2} {P_h}\left( {1 - {P_h}} \right)/{w_h}}}{{V + \sum {{W_h}} {P_h}\left( {1 - {P_h}} \right)/N}}\\\]

3.7 分层抽样的其他问题(不考)3.7.1 抽样效果分析

通常来说,分层抽样的精度高于简单随机抽样。如果各层总量 N_h 都比较大,那么

V_{o p t} \leq V_{\text {prop }} \leq V_{s r s}\\

最优分配方差 ≤ 比例分配方差 ≤ 简单随机抽样方差如果各层均值差异大,按比例分配;如果各层标准差差异大,按最优分配;调查多个目标变量,按比例分配好些。

关于比例分配方差≤简单随机抽样方差的证明如下。

对样本方差进行一些小处理,先计算层内离差平方和,再对各层求和:

(N-1) S^{2}=\sum_{h=1}^{L} \sum_{i=1}^{N_{i}}\left({Y}_{h i}-\bar{Y}\right)^{2}=\sum_{h=1}^{L}\left(N_{h}-1\right) S_{h}^{2}+\sum_{h=1}^{L} N_{h}\left(\bar{Y}_{h}-\bar{Y}\right)^{2}\\

第二个等号需要在括号中同时加减 \bar{Y}_h ,展开后交叉项为 0.

总离差平方和 = 组内离差平方和 + 组间离差平方的加权和,方差分析的手段。

由此可得

S^{2} \approx \sum_{h=1}^{L} W_{h} S_{h}^{2}+\sum_{h=1}^{L} W_{h}\left(\bar{Y}_{h}-\bar{Y}\right)^{2}\\

其中用到 \[\frac{{{N_h} - 1}}{{N - 1}} \approx \frac{{{N_h} - 1}}{N} \approx {W_h}\]

接下来,对于简单随机抽样的方差,有

\begin{aligned} V_{s r s} &=\frac{1-f}{n} S^{2} \approx \frac{1-f}{n} \sum_{h=1}^{L} W_{h} S_{h}^{2}+\frac{1-f}{n} \sum_{h=1}^{L} W_{h}\left(\bar{Y}_{h}-\bar{Y}\right)^{2} \\ &=V_{p r o p}+\frac{1-f}{n} \sum_{h=1}^{L} W_{h}\left(\bar{Y}_{h}-\bar{Y}\right)^{2} \end{aligned}\\

最后一个等号请回顾比例分配部分的结论。

由此立得 比例分配方差≤简单随机抽样方差,并且当组间平方和较大时,两者差异较大。这也就是为什么我们在各层均值差异比较大时,采用比例分配而不是简单随机抽样。

但上面证明过程中用到了两次近似,因此如果层分得不够好,不排除分层抽样比简单随机抽样效果差的情况。

如果我们不作近似,那么

S^{2}=\sum_{h=1}^{L} \frac{N_{h}-1}{N-1} S_{h}^{2}+\sum_{h=1}^{L} \frac{N_{h}}{N-1}\left(\bar{Y}_{h}-\bar{Y}\right)^{2}\\

此时有

\[{V_{srs}}{\rm{ = }}{V_{prop}} + \frac{{1 - f}}{{n(N - 1)}}\left[ {\sum\limits_{h = 1}^L {{N_h}} {{\left( {{{\bar Y}_h} - \bar Y} \right)}^2} - \frac{1}{N}\sum\limits_{h = 1}^L {\left( {N - {N_h}} \right)} S_h^2} \right]\\\]

如果方括号内小于0,则简单随机抽样方差更小。那么什么时候会出现这个情况呢?

如果分层后,每层方差都相同: S_{h}^{2}=S_{w}^{2}, h=1,2, \ldots, L ,那么

\sum_{h=1}^{L} N_{h}\left(\bar{Y}_{h}-\bar{Y}\right)^{2}



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3