一文搞懂抽样调查

您所在的位置:网站首页 为什么抽样误差会给推论统计带来问题呢 一文搞懂抽样调查

一文搞懂抽样调查

2024-07-14 09:58| 来源: 网络整理| 查看: 265

测量的过程怎么做?

首先有一个理论上的概念,就是测量的目标。也是之前所说每个人的特征,这个特征来源于一个抽象的概念,社会科学中很多概念都是很抽象不太好测量的,比如说地位、权利等,怎么测量?这时候我们需要把测量的指标落实到具体的测量问题上面,并且有一个具体的操作化的指标,把这些落实的过程就是一个测量的过程。

举个例子,经济地位怎么测量?比如我们认为收入可以反应人的的经济地位,但是收入可能和我们想要测量的目标还存在一定的差距,因为有些人收入并不高,但是他们的经济地位很高,为什么呢?可能他有很多的财产,所以财产也是一个人经济地位的表现。那究竟财产来测量经济地位好还是收入来测量经济地位好,这个是存在一定争议的,这也就意味着具体的抽样概念到操作化指标之间一定存在落差,这个落差就是存在抽样调查一个过程中的问题。

具体到的一个具体的测量指标,比如说收入,我们设计好一个问题:您过去一年的总收入是多少钱?这个问题需要受访者回答。所以从一个落实到具体的问卷上的问题,到受访者的回答是第二个测量过程。受访者在回答这些问题的时候不一定会如实回答,比如说收入问题是比较敏感的问题,有些收入比较高的人,可能会低报收入,有些家庭可能很穷,他碍于面子,可能会高报收入。因此是从测量问卷上的问题,到受访者回答之间会产生第二次误差。

第三,通过受访者的回答来推断想要测量的概念的时候,我们还需要对数据进行一些调整。我们要看这个数据有没有一些特别奇怪的值,比如说极大值或极小值,它们可能不是真实的情况,而是人为误差,比如说访问员在记录时可能多加了一个零,或者受访者回答的时候刻意低报或者高报。对于这些敏感的值我们需要注意,有的时候需要把这些值进行删除。我们还需要对逻辑上的问题进行校验,举个例子,调查时可能有人说他是1987年出生,1988年入党,我们知道一定要年满18岁才能入党,那这两个结果之间至少有一个是假的,也有可能两个都是错的,这种有逻辑上的错误的问题,就需要进行校对,找出哪个更可能是错的,然后把错误的值进行修正或者删除。所以从受访者的回答到最后用来进行计算的数据之间,需要进行一步处理。这一步处理得好,可能纠正测量误差,处理得不好,也可能带来新的误差。

整个测量过程要经过这几步,首先从理论概念落实到一个具体的问卷上的问题,从问卷上的问题再落实到受访者的回答,然后再对受访者的回答进行事后的一些调整和处理,最后才能变成一个可以用来进行统计分析的数据。这是一个测量环节过程。

抽样的过程怎么做?

抽样的过程首先从一个目标总体开始的。目标总体指的是研究对象构成的全体,比如中国人就是我们的目标总体,我们想了解的目标是所有中国人。所有中国人的概念好说,但是操作的时候是有难度的,这意味着我们需要找到一个所有中国人的名单,可能我们会通过户籍登记的资料来获取,但这些资料跟总体之间可能还会有误差。

所以就会从一个抽样总体到抽样框。抽样框就是实际可以操作的,总体中的每一个个体所构成的名单,这个名单有时候跟我们的总体是有差异的。比如在南京市做调查,南京市所有人口的名单可能不能获取,但是有另外一个替代办法,即通过电话号码来进行抽样,我们可义跟中国电信移动联通三大运营商进行合作,然后把活跃的南京市的用户手机号拿到,以这个手机号作为抽样框,也就是作为我们认为的个体名单来进行抽样。但是这个手机号作为抽样框是有问题的,首先有些人可能没有手机,有些人可能有多个手机号,可能有些人在南京生活,但他的手机号不是南京的。所以这些手机号跟我们的目标总体之间不构成一一对应的关系,这里就会产生问题。从目标总体到抽样框之间就会产生误差。

假定我们有了非常好的抽样框,下一个环节要抽取样本。抽样框里面的元素可能非常多,每个元素都要进行调查是不现实的。抽取一个样本,这个样本跟我们抽样框之间可能就会有一定的误差,因为它只是一个样本,不是抽样框的全体。比如我们拿到南京市的抽样框电话号码,假如有1000万个,但我们不可能去打1000万个电话,可能只需要打其中的50万个电话或者10万个电话,那这10万个电话就构成了这1000万个电话的一个样本,那这个样本跟总体之间,跟抽样框之间就会有一定的误差。如果打了10万个电话调查南京市的收入,发现人均月收入5000块钱,再打10万个电话,调查结果还是不是5000呢?就有可能是5100,也可能是4900,甚至可能还有其他的数字,如果再打电话,可能结果又变了。这个误差就是抽样过程中导致的误差,从抽样框到样本之间会构成第二次误差。

第三次误差是从样本到受访者的过程中产生的。刚刚举例,抽出了10万个电话号码,但是这不代表这10万个电话号码都会接受调查。做过电话调查的人知道,电话拒访率很高。拒访会导致实际能调查到的人跟抽出来的人不完全一样的一拨人,调查到的人一定会比抽取到的人少。如果乐意配合调查的人跟不配合的人之间有一定的差异,那受访者跟抽出的样本之间就有一定的误差。如果受访者样本之间有一些系统性的差距,就会导致样本的结构跟总体的结构有一定的偏差。这是抽样过程中涉及到第三个误差,从样本到受访者之间产生的误差。

因为有这些误差,我们在拿到样本以后,需要进行事后的调整,比如对数据进行加权处理等。这些办法在一定程度上能够纠正这些误差,但有的时候也会产生新的误差,总的来说抽样的环节每一步都会产生误差,直到最后拿到一个经过我们调整后的样本的数据,再结合测量环节中得到的调整后的测量结果,将这两个环节汇总进行统计计算。

抽样调查是经常跟误差打交道的学问

调查中只要有推论,就一定有误差。推断就是从一个不太可靠的东西来推断一个确定的东西。所以抽样调查任何一个调查都会有误差,不要认为抽样调查做得好就没有误差,这是不可能的。而且误差不能消除,只能减少。但是减少误差是要付出成本的。这意味着可能要付出现金成本,时间成本,人力成本等。

如果把所有可能出现的误差全部放到抽样调查中,就会产生这样一个图。

这还是之前的测量过程和抽样过程,但是每一个环节都标上了一种误差。

这些误差的概念究竟是什么意思?

每一种误差如何降低?

如何测量?

订阅南京大学许琪老师在学术志的专栏《定量研究必备:抽样调查21讲》,即可学习全部内容。

本文来自《定量研究必备:抽样调查21讲》中的第三讲《抽样调查中的推论与误差》,主讲老师是许琪。

许琪:男,北京大学社会学系社会学专业法学博士,美国密歇根大学人口研究中心访问学者,现为南京大学社会学院副教授。主要研究方向为:社会学量化研究方法、婚姻与家庭、社会分层与不平等。长期从事社会科学调查研究工作,擅长数据分析。

课程详情

返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3