抽样调查是政府统计工作和市场调查中普遍采用的方法,我国《统计法》中明确规定:搜集、整理统计资料,应当以周期性普查为基础,以经常性抽样调查为主体,综合运用全面调查、重点调查等方法,并充分利用行政记录等资料。
一、基本概念
抽样调查是从由全部调查对象构成的抽样总体中,随机抽取一部分调查对象作为个体样本进行调查,由个体样本的调查观测结果,对总体所关心的指标或特征做出统计推断。抽样调查包含以下几个要素 :
(一)抽样总体。
是指包含全部抽样研究目标个体对象的集合,这个集合通常与目标总体是一致的。个体对象的一个或多个构成划分抽样总体的个体单位,也就是抽样单元; 包含所有抽样单元的“名单”或“清册”就叫做抽样框。抽样研究的目标,既可以是单一指标,如人口数、住户可支配收入、住户消费支出、某品种农作物的播种面积、某个产品的产量等;也可以是多个指标,如同时考虑住户的可支配收入与消费支出、多个主要品种农作物的播种面积等;还可以是复合指标,如人口数和与之相关的性别、年龄、就业类别等交叉分组的指标。
(二)个体样本。
是指总体中包含研究目标个体信息的抽中调查对象。就调查对象而言,通常分为两类,一个是关于“人”的对象,如个人、企业、住户等;另一个是关于“物” 的对象,如土地、圈舍、厂房、船只等。
(三)抽样方法。
可以分为概率抽样和非概率抽样两类。概率抽样是指按照特定的随机抽样方法的具体规则,完全随机地抽选样本,在抽样框中的每个个体都有相等或者不相等的抽中概率。常用的概率抽样方法有简单随机抽样(SRS)、系统抽样(等距抽样)、与规模成比例的概率抽样(PPS)等。为了便于抽样的组织实施和提高抽样效率, 还经常采用分层抽样、多阶段抽样、二相抽样等抽样方法。非概率抽样指调查者根据自己的主观判断或意愿抽取样本的方法,通常没有抽样框,抽样概率也没有分布到全部调查对象,有的个体有可能被抽到,有的个体则没有被抽到的可能。在政府统计工作和社会经济统计调查中,概率抽样是经常使用的方法。
(四)统计推断。
是以样本中得到的有关抽样总体的个体信息为依据,对总体的总量、均值或比率等做出估计。对于来自概率抽样的样本,由于样本抽选过程具有随机性,按照概率抽样的原理,可以计算得到样本被抽中的入样概率,由此对总体的总量或均值指标做出统计推断,并且能够得到对应的统计估计量的方差,用以衡量估计结果的精度。对于非概率抽样的样本,由于不遵循随机原则,因而样本不能直接用于统计推断。虽然根据样本调查结果在一定程度上也能说明总体的统计特征, 但由于无法确定抽样误差,因此难以衡量对总体总量或均值的估计精度。
(五)总误差。
包括抽样误差和非抽样误差两部分。抽样误差来自于抽样方法的运用,是由样本估计总体而产生的误差。在抽样方案既定的前提下,样本量与估计量的抽样误差相关。通常在给定抽样方法和置信度情况下,抽样设计所允许的估计量的绝对误差限或变异系数(C.V)越小,则所需抽选的样本量越大。非抽样误差是抽样以外的因素造成的误差,包括由抽样框的不准确或不完整引起的抽样框误差, 以及调查过程中的无回答误差、测量误差和调查误差(回答或记录差错等)。
二、主要作用
抽样调查方法起源于十九世纪的欧洲,在二十世纪中期逐步形成了较完整的理论体系。抽样调查在社会经济生活和科学研究中都有着广泛应用,也是各国政府统计部门经常采用的一种调查方式。其作用主要有以下三方面:
一是研究社会经济现象和统计科研的有力工具。对于不易或不能进行全面调查的总体或事物,从总体中抽取部分样本,依据概率对总体总量或均值做出可靠估计;对于一些具有一定破坏程度的试验或产品检验,抽样调查是得到总体参数必须采用的方法。
例如,我国市场监管部门对于食品安全的检查就是典型的抽样调查,也可以叫做抽样检验。监管部门对某乳品企业生产的一批盒装鲜奶产品,采用简单随机抽样方法抽取一部分鲜奶产品样本(样本的数量必须满足预设的抽样估计精度)。抽选出样本后,用特定仪器和方法对鲜奶产品样本中的脂肪、蛋白质、总固体、菌落总数、大肠菌群等进行检验,从样本中得到的各指标的平均水平就代表了该批次整体水平的估计值。如果估计结果符合国家相关标准,就说明整个该批次的鲜奶产品检验合格,可以进入市场销售。
二是取得调查对象第一手资料,及时、准确地反映社会经济变化的有效方法。国内外通常采用由政府主导的周期性普查方式,取得一定时点或时期社会经济发展的基础信息和结构性基准数据,同时用来构建满足抽样设计的抽样框。在普查的间隔年份,常规统计工作主要采用抽样调查的方法,通过对调查对象第一手信息的收集,在有质量保证的前提下,对总体的情况做出精确推断。
三是进行普查、常规统计调查数据质量评估的必要手段。通常在普查的数据采集结束后要进行事后质量抽查,据此对普查数据质量(漏报、多报情况等)做出评价。在常规统计调查活动中,也可以采用事后质量抽样调查的方法,再次抽取一定数量的样本对统计调查的数据质量进行评价。
三、示例
我国政府统计工作中,广泛采用了抽样调查的技术方法,国家统计局在人口变动、劳动力、城乡居民收支、农产量、畜禽监测、居民消费价格等调查,以及规模以下的工业、限额以下批发和零售业、规模以下服务业等调查中都采用了抽样调查方法。此外,人口普查、经济普查和农业普查中也都采用事后质量抽样调查的方式进行数据质量评估。统计调查实际工作中,通常要先对抽样调查的总体单元进行分析,掌握总体单元中目标变量的分布情况,将目标变量特别大的那部分作为“规模以上”单独拿出来进行普查,然后再对余下的总体单元构建抽样框, 进行有效的抽样设计。
以国家统计局现行农产量抽样调查为例,整个抽样调查的工作流程如下。
(一)构建地域抽样框。通常抽样框的构建以行政村为样本单元,依据第三次全国农业普查农作物遥感测量取得的农作物种植区的地块面积及主要品种农作物种植面积等辅助信息得到村一级数据,用于初级抽样单元(行政村)抽样框的构建。
(二)抽选调查样本。农产量调查常采用分层两阶段抽样方法抽选农作物播种面积调查样本及单产调查样本。农作物播种面积调查样本,通常按照农作物种植的区域特点或种植强度对抽样框中的行政村按地域(如各县)进行分层,第一阶段采用与耕地面积的规模成比例的概率抽样方法抽选样本村,第二阶段在抽选出的样本村中采用简单随机抽样方法抽取耕地单位区(按一定面积组合的耕地地块)。主要农作物品种的单产调查,则是在播种面积调查样本中再通过二相抽样方法,在已确定有种植某种作物的耕地单位区中抽取部分的耕地单位区及自然地块,布放若干实割实测的小样本,用于单产的实割实测调查。既满足了抽样设计的要求又适当减少了调查样本量。
(三)实地调查取得样本调查数据。农作物播种面积实地调查在已抽选出的样本耕地单位区内进行分品种播种面积的数据采集;主要品种的单产调查则是在抽选出的单产调查样本中开展实割实测调查,取得样本地块的单产数据及测定含水率和杂质率,并测算割、拉、打过程的损失量。
(四)播种面积和单产推算。在取得对抽中耕地单位区分品种农作物面积的基础上,原则上按照每个样本对应的总权数(两阶段入样概率倒数的乘积)进行加权求和,对总体分品种的农作物播种面积做出估计。在实际统计调查过程中,往往会遇到无法取得调查数据,即调查对象无回答的情况,这就需要对无回答情况做出权数调整,然后再用于推算总体的农作物播种面积。另外,在有可靠外部信息的情况下,如具有抽样总体的农业普查数据,这时可以用外部辅助信息进一步校准权数,进而采用校准权数对农作物播种面积做出估计。对主要品种农作物单产的计算,由于实割实测用的样本通常采用自加权的抽样设计,因而单产采用对所有实测样本进行简单平均的方式进行计算。
(五)给出估计量的方差估计。对于统计推断的估计结果,还需要给出估计量即农作物播种面积和单产的方差估计用于衡量估计结果的精度。