一文搞懂抽样调查

您所在的位置：网站首页 › 为什么抽样误差会给推论统计带来问题呢 › 一文搞懂抽样调查

一文搞懂抽样调查

2024-07-14 09:58| 来源: 网络整理| 查看: 265

测量的过程怎么做？

首先有一个理论上的概念，就是测量的目标。也是之前所说每个人的特征，这个特征来源于一个抽象的概念，社会科学中很多概念都是很抽象不太好测量的，比如说地位、权利等，怎么测量？这时候我们需要把测量的指标落实到具体的测量问题上面，并且有一个具体的操作化的指标，把这些落实的过程就是一个测量的过程。

举个例子，经济地位怎么测量？比如我们认为收入可以反应人的的经济地位，但是收入可能和我们想要测量的目标还存在一定的差距，因为有些人收入并不高，但是他们的经济地位很高，为什么呢？可能他有很多的财产，所以财产也是一个人经济地位的表现。那究竟财产来测量经济地位好还是收入来测量经济地位好，这个是存在一定争议的，这也就意味着具体的抽样概念到操作化指标之间一定存在落差，这个落差就是存在抽样调查一个过程中的问题。

具体到的一个具体的测量指标，比如说收入，我们设计好一个问题：您过去一年的总收入是多少钱？这个问题需要受访者回答。所以从一个落实到具体的问卷上的问题，到受访者的回答是第二个测量过程。受访者在回答这些问题的时候不一定会如实回答，比如说收入问题是比较敏感的问题，有些收入比较高的人，可能会低报收入，有些家庭可能很穷，他碍于面子，可能会高报收入。因此是从测量问卷上的问题，到受访者回答之间会产生第二次误差。

第三，通过受访者的回答来推断想要测量的概念的时候，我们还需要对数据进行一些调整。我们要看这个数据有没有一些特别奇怪的值，比如说极大值或极小值，它们可能不是真实的情况，而是人为误差，比如说访问员在记录时可能多加了一个零，或者受访者回答的时候刻意低报或者高报。对于这些敏感的值我们需要注意，有的时候需要把这些值进行删除。我们还需要对逻辑上的问题进行校验，举个例子，调查时可能有人说他是1987年出生，1988年入党，我们知道一定要年满18岁才能入党，那这两个结果之间至少有一个是假的，也有可能两个都是错的，这种有逻辑上的错误的问题，就需要进行校对，找出哪个更可能是错的，然后把错误的值进行修正或者删除。所以从受访者的回答到最后用来进行计算的数据之间，需要进行一步处理。这一步处理得好，可能纠正测量误差，处理得不好，也可能带来新的误差。

整个测量过程要经过这几步，首先从理论概念落实到一个具体的问卷上的问题，从问卷上的问题再落实到受访者的回答，然后再对受访者的回答进行事后的一些调整和处理，最后才能变成一个可以用来进行统计分析的数据。这是一个测量环节过程。

抽样的过程怎么做？

抽样的过程首先从一个目标总体开始的。目标总体指的是研究对象构成的全体，比如中国人就是我们的目标总体，我们想了解的目标是所有中国人。所有中国人的概念好说，但是操作的时候是有难度的，这意味着我们需要找到一个所有中国人的名单，可能我们会通过户籍登记的资料来获取，但这些资料跟总体之间可能还会有误差。

所以就会从一个抽样总体到抽样框。抽样框就是实际可以操作的，总体中的每一个个体所构成的名单，这个名单有时候跟我们的总体是有差异的。比如在南京市做调查，南京市所有人口的名单可能不能获取，但是有另外一个替代办法，即通过电话号码来进行抽样，我们可义跟中国电信移动联通三大运营商进行合作，然后把活跃的南京市的用户手机号拿到，以这个手机号作为抽样框，也就是作为我们认为的个体名单来进行抽样。但是这个手机号作为抽样框是有问题的，首先有些人可能没有手机，有些人可能有多个手机号，可能有些人在南京生活，但他的手机号不是南京的。所以这些手机号跟我们的目标总体之间不构成一一对应的关系，这里就会产生问题。从目标总体到抽样框之间就会产生误差。

假定我们有了非常好的抽样框，下一个环节要抽取样本。抽样框里面的元素可能非常多，每个元素都要进行调查是不现实的。抽取一个样本，这个样本跟我们抽样框之间可能就会有一定的误差，因为它只是一个样本，不是抽样框的全体。比如我们拿到南京市的抽样框电话号码，假如有1000万个，但我们不可能去打1000万个电话，可能只需要打其中的50万个电话或者10万个电话，那这10万个电话就构成了这1000万个电话的一个样本，那这个样本跟总体之间，跟抽样框之间就会有一定的误差。如果打了10万个电话调查南京市的收入，发现人均月收入5000块钱，再打10万个电话，调查结果还是不是5000呢？就有可能是5100，也可能是4900，甚至可能还有其他的数字，如果再打电话，可能结果又变了。这个误差就是抽样过程中导致的误差，从抽样框到样本之间会构成第二次误差。

第三次误差是从样本到受访者的过程中产生的。刚刚举例，抽出了10万个电话号码，但是这不代表这10万个电话号码都会接受调查。做过电话调查的人知道，电话拒访率很高。拒访会导致实际能调查到的人跟抽出来的人不完全一样的一拨人，调查到的人一定会比抽取到的人少。如果乐意配合调查的人跟不配合的人之间有一定的差异，那受访者跟抽出的样本之间就有一定的误差。如果受访者样本之间有一些系统性的差距，就会导致样本的结构跟总体的结构有一定的偏差。这是抽样过程中涉及到第三个误差，从样本到受访者之间产生的误差。

因为有这些误差，我们在拿到样本以后，需要进行事后的调整，比如对数据进行加权处理等。这些办法在一定程度上能够纠正这些误差，但有的时候也会产生新的误差，总的来说抽样的环节每一步都会产生误差，直到最后拿到一个经过我们调整后的样本的数据，再结合测量环节中得到的调整后的测量结果，将这两个环节汇总进行统计计算。

抽样调查是经常跟误差打交道的学问

调查中只要有推论，就一定有误差。推断就是从一个不太可靠的东西来推断一个确定的东西。所以抽样调查任何一个调查都会有误差，不要认为抽样调查做得好就没有误差，这是不可能的。而且误差不能消除，只能减少。但是减少误差是要付出成本的。这意味着可能要付出现金成本，时间成本，人力成本等。

如果把所有可能出现的误差全部放到抽样调查中，就会产生这样一个图。

这还是之前的测量过程和抽样过程，但是每一个环节都标上了一种误差。

这些误差的概念究竟是什么意思？

每一种误差如何降低？

如何测量？

订阅南京大学许琪老师在学术志的专栏《定量研究必备：抽样调查21讲》，即可学习全部内容。

本文来自《定量研究必备：抽样调查21讲》中的第三讲《抽样调查中的推论与误差》，主讲老师是许琪。

许琪：男，北京大学社会学系社会学专业法学博士，美国密歇根大学人口研究中心访问学者，现为南京大学社会学院副教授。主要研究方向为：社会学量化研究方法、婚姻与家庭、社会分层与不平等。长期从事社会科学调查研究工作，擅长数据分析。

课程详情

返回搜狐，查看更多

【本文地址】

一文搞懂抽样调查

一文搞懂抽样调查

今日新闻

推荐新闻