抽样调查第01讲(绪论:调查与抽样调查;基本概念;常见抽样方式)

您所在的位置:网站首页 雪球抽样 抽样调查第01讲(绪论:调查与抽样调查;基本概念;常见抽样方式)

抽样调查第01讲(绪论:调查与抽样调查;基本概念;常见抽样方式)

2023-12-01 21:05| 来源: 网络整理| 查看: 265

本课程的主要框架如下:

首先绪论部分会介绍抽样调查中的一些基本概念与几种常见的抽样方法,然后在后面的章节中会逐项介绍这些具体的抽样方式。例如在第二章中我们会介绍简单随机抽样(注意其与数理统计中简单随机抽样的区别),后面还会介绍分层随机抽样等概率整群抽样和多阶段抽样不等概率抽样系统抽样以及其他抽样方法。第九章会介绍复杂样本,即把多重抽样方法整合起来、最后第十章介绍调查当中的非抽样误差,它与所使用的抽样方法无关,只要是调查都会存在这个误差。

第一章 绪论1.1 调查与抽样调查

所谓调查,简而言之就是设计一种方法,从总体的全体或部分个体中搜集你所感兴趣的指标信息,整理成为数据。

例:杭州市快速公交乘客满意度与潜在需求调香——浙江省统计调查方案设计大赛作品

而数据可以分为实验数据和调查数据:

实验数据:客观上并不存在,要通过实验来获取调查数据:客观上存在,但调查前并不知道,需要通过调查来获取

调查数据有以下三个特点:大多与时间有关(比如人口数);随时间变化而改变,要定期收集(定期的人口普查);短期内相对稳定(一个国家的地理地质资料)。另外还有一个显著的特点:存在一定的误差(这是由调查工具的局限、环境情况等因素导致的)。

调查的概念明确后,回到课程名称“抽样调查”上。“抽样”字面意思就是只调查一部分的数据,从这个角度可以把调查分为全面调查非全面调查,非全面调查又可以细分为重点调查典型调查抽样调查

全面调查:试图得到总体的全部信息(如人口普查),但并不一定精确(如人口普查时遗漏或重复记录等)重点&典型调查:只关注总体中重点的个体或具有典型特征的个体。抽样调查:从总体中按照一定的方法抽取出一个样本进行调查。(我们买水果时总要抓一个尝一尝,这也是抽样调查)在数理统计中有学过:统计推断就是由样本来推断总体。数理统计中认为总体是服从一个分布的,也就通常把总体认为是无限总体,进而从中随机抽取的样本就是简单随机样本。但抽样调查并不这么认为。因为事实上我们面对的总体一般情况下是有限的(此时简单随机样本对应的是放回抽样),它没有什么分布可言(因为它就是这么些数字),只要你调查的数据 n 小于总数 N 就是抽样,等于 N 就是普查。

关于抽样呢,又可以分为概率抽样(有随机性)和非概率抽样(无随机性,例如重点&典型调查)。非概率抽样的好坏依赖于人的主观判断能力和经验(有经验的人做的效果就好一些),无法计算抽样误差(好和差的程度难以判断)。

下面是一些常见的非概率抽样方法:

方便抽样:调查者方便才调查,也称“拦截法”,它虽然不能代表总体,但可以作为正式调查前的预调查,用于发现问题。(路上拦人写问卷,并且问卷的最后询问调查者对问卷的意见)判断抽样(包括典型调查和重点调查):根据研究者的主观判断,从总体中选取有典型代表性的样本来调查。(调查平均绩点附近的同学)自愿样本:与方便抽样一样,也可用于预调查发现问题(上网看到有问卷,并且自己感兴趣,就会参与调查)滚雪球抽样:(罕见病的个体难以找寻,可以先调查其中的几个,然后通过他们来得到病友群)配额抽样:(了解了总体的男女比例是3:1,那么在调查时也按照这个比例进行)

我们使用非概率抽样一般基于以下条件或目的

客观条件限制,严格概率抽样无法进行为了快速得到结果调查对象不确定(例如对突发事件的现场调查)个体间差异不大,且调查者经验丰富

与非概率抽样相对应的是概率抽样,它有以下几个特点

按一定概率以随机原则抽取,排除主观性。实施的时候需要按照给定概率,用随机化程序实现。由样本估计总体参数时,需要考虑每个单元的入样概率。

注意:随机不是随便,它可以用概率来描述;随机原则并不代表等概率,“随机抽取”才是等概率抽样;一般要求每个单元的入样概率非 0.

基于概率抽样的抽样调查,相对于全面调查而言有以下作用

有时全面调查无法进行的,只能抽样调查(无限总体:大气污染程度的调查;破坏性调查:灯泡的寿命)适用于大规模的社会经济调查民意测验(如居民收入或消费情况调查,收视率调查等)节约人力物力,降低调查的费用(这是肯定的)周期短,时效性强(有些调查讲究时效性,如新闻舆论调查)提高调查的质量

注意:这里可能会错误认为普查质量更高,其实并不是。任何调查都会有误差,同样方法下,相对而言抽样调查得到的数据质量更高。因为抽样调查需要的人力比较少,可以通过培训让调查员把精力集中在如何获取准确数据上。

我国现行统计法规定:统计调查以周期性普查为基础,以经常性抽查为主体,以必要的统计报表,重点调查,综合分析等为补充。

抽样调查与普查是互相补充,相辅相成关系,不能因为抽样调查质量高就只进行抽样调查,它应该作为普查的补充。

1.2 基本概念1.2.1 目标总体与抽样总体

目标总体也简称总体,是研究对象的全体。抽样总体是指从中抽取样本的总体,通常我们都从目标总体里面抽取,也就有目标总体 = 抽样总体。但实际情况也会出现目标总体 ≠ 抽样总体:例如目标是个体商业经营单位,为了概率抽样我们只能从有营业执照记录的单位中抽取样本,对于那些没有营业执照记录的个体我们就人为地排除在外了,对于有营业执照但是后来改行的就人为地重复记录了。

1.2.2 抽样框与抽样单元

抽样总体的具体表现就是抽样框(例如抽样总体中人员的名单,此外还可以是手册、地图、数据包等等)

通常要求抽样框是有序的(要将每个个体编号),并且抽样单元“不重不漏”,否则会出现抽样框误差。

关于抽样单元还要进行分级:初级单元>次级单元>三级单元>四级单元......>基本抽样单元

比如抽样框是杭州所有高校学生名单,那么初级单元可以是高校、次级单元可以是年级。抽样的步骤可以是:先选取高校,再选取年级,接着选行政班,接着再从单个行政班中抽取个体。这样做会比直接从所有学生名单中抽取要简单清晰。

1.2.3 总体参数与统计量(一)总体参数

数理统计中也需要估计总体参数,但本课程与之相比代估的参数简单得多,只有以下四个。

总体总值:如全国的耕地面积;浙江省商业零售总额。总体均值:即总值除以单元数。如教职工的平均工资;儿童平均患龋齿的个数。总体比例:某个特征的个体占全体的比例。如某种疾病的患病率。总体比率:总体中两个指标的总和之比或均值之比。如食品费用占生活费用的比例(恩格尔系数)。

小练兵:判断以下总体目标量的类型?

调查城市居民家庭平均用电量。估计湖中鱼的数量。估计居民家庭用于做饭菜及饮用的用水量的比重。估计婴儿出生性别比。杭州市应届高中生考入985学校的比例。

答案:均值;总值;比率;比率;比例。答对了吗?

以上指标还可以用数学符号来表示,我们记 X,Y 是总体的两项指标(总体有 N 个单元,N是已知的),记每个单元的 Y 指标值为 Y_{1}, \ldots, Y_{N} ,X 指标值为 X_{1}, \ldots, X_{N} ,则

Y=\sum_{i=1}^{N} Y_{i}--\mathbf{Y}X=\sum_{i=1}^{N} X_{i}--\mathbf{X} 为总量

\bar{Y}=\sum_{i=1}^{N} Y_{i} / N--\mathbf{Y}\bar{X}=\sum_{i=1}^{N} X_{i} / N--\mathbf{X} 为均值

如果指标 Y 只有两个值:

Y_{i}=\left\{\begin{array}{c} 1, \text { 若第i个单元具有某个特征; } \\ 0, \text { 若第i个单元不具有某个特征。 } \end{array}\right.\\

则对应的总量 A \hat{=} Y=\sum_{i=1}^{N} Y_{i} 代表总体中包含某个特征的单元数。

P=\frac{A}{N}=\frac{Y}{N}=\bar{Y} 为比例, R=\frac{Y}{X}=\frac{\bar{Y}}{\bar{X}} 为比率

参数数量并不多,这也能体现本课程与数理统计的侧重点并不同。本课更注重多种复杂的抽样方法,而数理统计的所有理论大都基于简单随机样本。(二)统计量与估计方法

统计量的概念与数理统计中的一致,就是样本观测值的函数。合适的统计量可以作为参数的估计量,比如我们常用样本均值来估计总体均值,进而能估计总量。但为了精度更高,我们还会引入辅助变量。比如我们要估计大学老师的平均工资,可以用去年的数据作为辅助。

1.2.4 估计量方差、偏差、均方误差

这些定义在数理统计中已经学过,这里只简单提一下。

估计量方差,即估计量分布的方差:

V(\hat{\theta})=E[\hat{\theta}-E(\hat{\theta})]^{2}\\

估计量偏差,即估计量均值与总体均值之差:

B(\hat{\theta})=[E(\hat{\theta})-\theta]\\

均方误差:

\begin{aligned} \operatorname{MSE}(\hat{\theta}) &=E[\hat{\theta}-\theta]^{2} \\ &=E[\hat{\theta}-E(\hat{\theta})+E(\hat{\theta})-\theta]^{2} \\ &=E[\hat{\theta}-E(\hat{\theta})]^{2}+[E(\hat{\theta})-\theta]^2 \\ &=V(\hat{\theta})+B^{2}(\hat{\theta}) \end{aligned}\\

大样本下有渐近正态性:

\frac{\hat{\theta}-\theta}{\sqrt{V(\hat{\theta})}} \sim N(0,1)\\

1.2.5 抽样误差与非抽样误差

抽样误差:因为只抽取了一部分数据,与总体会有一定差异。只要是抽样调查,就不可避免产生抽样误差。通常用估计量的方差会标准差来度量抽样误差。

如果是普查,则 \hat{\theta}=\theta ,估计量方差为 0

非抽样误差:这是相对而言的,包括抽样框误差(总体单元重复或遗漏)、计量误差(数据抄错)、无回答误差(问卷太长,后面几页没人回答)等

1.2.6 精度与费用

直观上看,要想精度高,那么样本量就要大,这就导致费用也提高了。

精度是由抽样误差决定的,它随样本容量变化如下

调查的费用通常假定为关于样本容量 n 的线性函数

C=c_{0}+c_{1} n\\

我们需要考虑的是:如何以最小的费用达到要求的精度或者在给定费用的情况下达到最大的精度。

1.3 几种基本的抽样方式

前面介绍了非概率抽样调查的方式包括:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样。下面主要介绍概率抽样中的基本抽样方式。

1.3.1 简单随机抽样

也称纯随机抽样,这里指的是一种不放回抽样。即从总体的 N 个单元中逐个随机抽取,直到抽满 n 个为止。总共可能的样本个数为 C^n_N 个,取每一个的概率都是相同的。

具体实施可以采用抽签法或随机数法(实施起来不难)。

讨论以下抽样是否属于简单随机抽样:

总体编号1-35,从00-99中产生随机数,如果不在1-35中则重抽。总体编号1-35,从00-99中产生随机数,对 35 取模,为 0 则选取 35。总体编号为1-190,从000-999中产生随机数,对 200 取模,若不在 1-190 中则重抽。

答案:是;不是;是。注意看每个个体的入样概率是否一样。

优点简单直观抽选概率相同其他抽样方法的基础缺点N很大时难以获得抽样框样本分散不易实施,调查费用高(比如每个个体分散在不同地区)使用场景很少单独使用,一般结合其他方法使用没有其他信息时使用多变量复杂数据分析1.3.2 分层抽样

也称类别抽样,它先将总体所有单位按某些重要标志进行分类(层),然后在各类(层)中采用简单随机抽样或系统抽样方式抽取样本单位的一种抽样方式。

比如对于一所大学的学生,我们可以分为不同年级,然后每个年级的学生中使用简单随机抽样。

优点更为精确(通常能保证精度)对每层的目标量进行估计(最后得到学校的均值,可以和各个年级的均值进行比较)

具体实施可以分为等比例抽样和不等比例抽样。比如四个年级的人数比分别为1:2:3:4,那么我在抽取样本时也按照这个比例来抽,就是等比例抽样。否则是不等比例抽样。

1.3.3 系统抽样

先对样本排序,然后随机抽取一个单元作为样本的第一个单元,然后按照某一给定的规则来确定样本的其他单元。最简单的规则就是等间隔抽取,也称等距抽样

例如我们从1-40中抽取4个单元,第一步先从1-10中抽取得到2,那么样本就是:2,12,22,32

从中可以发现:抽样的好坏与排列的顺序会有关联。

排列顺序与调查项目无关(研究学生某一学科的成绩,按照学号排列)排列顺序与调查项目有关(研究学生某一学科的成绩,按照另一学科的成绩排列)优点均匀地分布简单易行缺点抽样误差计算较为复杂周期性重合时会影响调查的精确度(如杭州的交通情况,如果以24小时作为间隔,那么会得到周期性数据,无法反映一整天的情况)需要较为详细、具体的相关资料1.3.4 整群抽样

先将总体划分成许多不相重合的子总体或群,然后以群为抽样单位,按某种随机方式从中抽取若干个群,形成一个“群”的随机样本,对抽中的群内所有单位都进行调查

某大学要调查学生的视力,可以将班做为一个群,随机抽取几个班,对这些班的全部学生进行调查

注意:如果调查所有班,每个班调查10个人,则为分层抽样。

特点:无需总体最终单位的抽样框(上例中抽样框是班而不是学生)实施便利、节省费用影响整群抽样误差的主要是群间方差。分群时使群内方差尽可能大,使群间方差尽可能小。整群抽样的估计精度一般低于简单随机抽样1.3.5 多阶段抽样(介于分层抽样和整群抽样之间)

分几个阶段进行:

首先在总体中按随机原则抽取若干初级(一级)单位;然后再从被抽中的初级单位中抽取若干次级(二级)单位,这种抽样称为二阶段抽样;如果每个次级单位又可以进一步分为更小的三级单位,那么在每个被抽中的二级单位中再抽取三级单位,这称为三阶段抽样;以此类推,可以定义更多阶段的抽样。抽一部分班,每个班中抽一部分人--两阶段抽样

剩下的内容放到下一讲



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3