第三章　抽样实务及问题

3.1　复习笔记

【知识框架】

【重点难点归纳】

一、区域抽样

区域抽样是一种实用的抽样方法，它能为抽选居民住户提供很好的抽样方法。区域抽样主要有以下三种：

1按户籍资料的PPS抽样

在实践中，分层多阶段区域抽样是应用范围比较广泛的多阶段抽样方法。只要能以区域划分总体，就能够采用多阶段区域抽样。假设某省一个调查研究中心计划进行一次全省范围的抽样调查，希望利用调查数据进行社会结构变迁研究。根据最近的普查，该省共有家庭户17699115户，计划用PPS方法从中抽取4000户作为样本。利用PPS方法进行分层多阶段区域抽样的步骤如下。

（1）计算总的抽样比，公式如下：

=4000/17699115=0.000226≈1/4425

即在全省范围内从每4425户中抽取一户。

（2）确定各级抽样单位和计划样本规模

设此次抽样为4级抽样，各级抽样单位依次为：县（PSU）、乡、村、户。

计划在全省共抽取40个县，每个县抽取2个乡，每个乡抽取2个村，每个村计划抽取25户，即a=40，b=2，C=2，d=25，b×c×d=100（每个县计划抽取100户）。

（3）对PSU分层和确定层内计划样本规模

结合各县的地理位置，由南至北将所有PSU划分为四个层。假设某一层的规模为1935851户，采取按比例分配样本，因此各层抽样比f_b等于总抽样比f，层内计划样本规模可由f_b＝f求出：

1935851×0.000226≈437.5（户）

（4）在层内抽取PSU

①从普查资料或其他资料取得PSU的规模测量值M_ha，将层内PSU排列起来。可采用以下方式排列PSU：

a．在获得PSU的某个与调查变量相关的变量资料的基础上，将PSU按该变量值排序，以取得隐含的分层效果；

b．在地图上将各个PSU用一条蛇形线串起来，然后将各个PSU按此线穿过的先后顺序排列，这样可以使样本PSU在空间上较为分散。

②按层内PSU的排列顺序，将规模测量值M_ha累加。

③采用系统抽样，先计算抽样间距。公式如下：

在此例中，k=1935851/4=483962.75≈483963（k很大，故四舍五入影响不大）。然后，在1～k范围内抽取一个随机数r作为起点，设从随机数表中查得一个8位数字26804292，则r＝268042.92。最后，抽出a_h个PSU，抽中号码分别为：r，r＋k，…，r＋（a_h－1）k。

在此例中，抽中的号码分别为：268042.92，752005.67，1235968.42，1719931.17。这4个号码分别落在第2、5、7、10号PSU的号码范围，因此这四个县被抽中，由此产生类似表3-1的结果。

表3-1　PPS方法抽取PSU（县）

（5）在PSU内抽次级抽样单位

第二、第三级抽样分别用PPS抽样法，从每个样本县中抽选出b－2个样本乡，从每个样本乡中抽选出c－2个样本村。

第四级抽样，从每个样本村内抽取样本户。

①计划样本户数为d，这样，第四级抽样的抽样比为d^*／M_haβγ，其中，M_haβγ为第a县内第β乡的第γ村的规模测量值。

②第四级抽样的期望样本户数由该抽样比乘实际村规模（户数）得到，即d＝（d^*／M_haβγ）×N_haβγ。

③设某样本村的规模测量值为M_haβγ＝374（户），而调查时的实际规模测量值N_haβγ＝397（户），则从该村则从该村实际应抽户数为d=（27.35/374）×397=29.03≈29（户）。抽户可按线性系统抽样进行，即先算出抽样间距，然后将户名单随机排列进行等距抽取。

（6）PPS抽样过程的说明

①在确定各级抽样单位数目时，需要考虑两方面的因素：

a．需要考虑各阶段抽样总体的异质性程度，异质性越高，样本规模越大；反之，则越小。

b．要考虑所需要的人力和经费。一般说来，在其他条件不变的情况下，样本的覆盖面越大，代表性也越好，这意味着PSU越多，代表性也越好。但PSU越多，调查员需要走访的范围也越大，所需的时间和经费也越多。

②还有一种分层方法，即将总体A个PSU划分为a／2个大小相近似的层，每层抽取两个PSU，这种分层方法由于划分得较细，因此可以较大地降低总体异质性程度。不过这种分层需要较多的分层信息，工作量比较大。

③有些抽样单位的规模可能会大于抽样间距。这样无论随机起点落在何处，该抽样单位都会被选中，而且很可能会被选中两次。这时有两种处理方法：

a．将该抽样单位与其他抽样单位同样看待，如果其被选中两次，就将其视为两个抽样单位，从中抽取两倍的次级抽样单位。

b．将所有大于抽样间距的单位挑出来，单独组成一个层，在该层内用总抽样比求出该层样本规模，然后直接抽取次级抽样单位。需要注意的是，重新分层后，要重新计算每个层的抽样间距。

④可能有些最后一级群的规模测度值小于计划从中抽取的样本数。在上面的例子中，有些村子的规模测度值M _h_αβγ可能小于计划从每个样本村中抽选的户数d*，这样就会使最后一级的抽样比大于1（）。解决这个问题的方法是事先规定村的M_haβγ下限为2d^*，或3d^*，不以d^*为下限，因为即使村的M_haβγ>d^*，村实际规模仍有可能小于d^*。如果某村的M_haβγ小于下限值，就将其与邻近的村子合并成一个村子。如果需要合并的村子太多，也可将这些小村子单独组成一个层，对层内的村子规定一个较小的d^*值。

2从住户中抽取被访者

这种抽样方法可分为以下几种：

（1）户内抽样

多阶段抽样设计的最后一级抽样单位往往是居民住户，在实际调查中，通常需要从居民住户中的多名成员中按一定规则抽取一位成年人作为调查对象，这就是户内抽样。

（2）Kish表抽样方法

Kish表抽样方法是当前抽样调查中比较常用的户内抽样方法。它是通过一份抽样表来进行的，表内包括被访住户的地址、住户家庭成员情况登录表和抽样表等几项内容。访问员在住户同意被采访后，即可以通过以下步骤来抽取被访对象：

①填写住户成员情况

a．询问住户成员的基本情况，包括性别、年龄及其与户主关系。

b．将成员进行排序并对符合被访问条件的成员编号，依次填入住户家庭成员情况登录表中。排序遵循的原则是：男性在前，女性在后；年龄大的在前，年龄小的在后；年龄最大的女性排在年龄最小的男性后面。

②根据抽样表抽取被访者

每份问卷抽样页中的抽样表包括以下内容：抽样表的编号、住户中成年成员数目和抽取成年住户成员的号码。其中抽样表的编号分为A1、B1、B2、，C、D、E1、E2和F等8种，即共有8种抽样表。每种抽样表占抽样表总数的比例分别为：1/6、1/12、1/12、1/6、1/6、1/12、1/12和1/6。每一份问卷的抽样也都有一种抽样表，问卷也因此被分为8类。问卷抽样页上的抽样表格式如表3-2所示。

表3-2　抽样表

访问员在访问时是根据问卷抽样页上的抽样表，从住户家庭成员情况登录表上抽取访问对象。实际使用抽样表时，要事先用荧光笔按一定顺序将抽样表的某一横行画上记号，也就是在某一份问卷上选定某一种抽样表。

（3）使用Kish表抽样方法需要注意的问题

①使用Kish表抽样方法的关键是一定要事先将访问地址和抽样表种类分配给问卷，尽量不要让访问员根据地址决定抽样表的种类，否则容易产生较大误差。在实际抽样中，如果无法事先确定访问地址，可以将与问卷配套的抽样表密封在信封中，由访问员在排列好住户成员顺序后打开。

②要注意在A、B和C类抽样表中一般容易抽中较小编号，而被分配给这些抽样表的地址，主要是男性被访者，因此，晚上访问比较合适，特别是在农村调查更是如此。相反，访问员可利用白天时间访问分配给D、E和F类抽样表的地址的被访者。

③访问员应将住户所有成员的情况，尽可能准确地填入住户家庭成员情况登录表中。因为这些资料不仅可以用来抽取被访者，也可以使研究者搜集到这些住户成员的个人样本的资料。利用这种资料可以很方便地描述抽样区域居民总体情况，因为按这种方法抽出的样本，在年龄、性别、文化程度等方面的分布与总体的分布往往十分接近。

3按居住地地图法抽样

在没有现成的户籍资料，或已有的户籍资料不完备、过时的情况下，可以采用地图法直接从居住地抽取居民户。地图法既可以在PPS抽样的基础上，在一个相对较小的区域内使用，也可在较大范围内使用。采用地图法抽样的具体步骤如下：

（1）选定绘制地图的区域

在实际调查中，如果进行调查的行政区域较大，实际抽样需要分阶段进行。

（2）获取或制作参考底图

①具体内容

选定相应区域后，需设法提前与被抽样的村／居委会的主要负责人取得联系，获取该村／居委会已有的地图作为参考底图。在无法获得村／居委会地图作为底图的情况下，调查员在熟悉调查区域的基本情况及地形后，可以自行绘制底图。具体步骤如下：

a．明确调查区域行政边界范围。

b．绘制出调查区域建筑物的分布情况，包括道路、地貌、建筑物的类型和分布，并做好标记。

c．从村／居委会的西北角开始，按顺时针方向，绘出含有以上信息的参考底图。

②注意事项

本阶段的注意事项包括：

a．参考底图不能直接当成调查地图来用，其作用仅仅是帮助绘图员从整体上把握要绘制的村／居委会的整体情况和绘图比例。

b．有时为了明确调查区域的边界或便于在调查时清晰地找到相关的住宅建筑物，可以绘出样本区域外的标志性建筑物或地貌，以便调查员找寻调查对象所在位置。

c．在绘制参考底图时，如果遇到山区，不用边走边绘制底图，只需从小山丘上画出俯视全貌即可。

（3）绘制地图（或选取现有地图）

①以参考底图为依据，调查人员可以按照绘图规则和技术规范绘制清晰的村／居委会调查地图。需要注意两个重要问题：

a．确保社区内的所有住宅建筑物都进入调查者地图中，可采取右手原则，即以该村／居委会的西北角为起点边走边绘制地图，可防止遗漏；

b．控制好绘图比例，使调查地图与实际尽量一致，尽可能在一张纸上完成调查地图的绘制。

②如果使用既有地图作为调查地图，需要选出地图上的坐标点。先在选定的地图上绘制二维网格，然后从地图上按照某种概率规则抽取出一些二维坐标点，在地图上确定坐标点后，还需要再到户外对这些坐标点进行实地考察，对地图上的坐标点进行适当的修正，以弥补地图过时导致的偏差。选择地图要考虑以下因素：a．地图出版的时间；b．地图的比例尺。

（4）制作住户清单列表

在地图抽样方法中，完整的住户清单列表就构成了调查的抽样框。绘制调查地图和制作住户清单列表并抽样，是地图抽样法的两项核心工作。住户清单列表一般包括两大部分：住户清单列表封面和住户清单。

①住户清单列表封面制作

住户清单列表封面主要包括总住户数、总住宅数、住宅类楼房数量、住宅类平房数量、抽取样本数量。采用系统抽样时需要填写抽样距离，如采用随机抽样，则抽样距离不用填写。

②住户清单列表制作

住户清单列表由若干张村／居委会住户清单及抽样名单组成。住户清单列表必须保持三个一致。这三个一致还可以作为抽样员检查工作是否准确的标准。

a．封面的总住宅数与表单中标出的最后一个序号要一致。

b．表单中，单个建筑物的“楼层住宅数量”之和与该建筑物总住宅数要一致。

c．表单中，“楼层住户数量”与“住户编号”要一致。

（5）抽取样本

①抽取样本

a．随机抽样法

抽取的对象为坐标点所对应的该楼的某一住户，即“样本户”。考虑到实际住户规模的差异性，地图抽样法中多采用随机抽样法。原因在于：

第一，这种抽样法的优点在于它能保证抽样的随机性。这种随机性首先保证了在实际操作环节，即使个别随机数出错，也无须整体重新抽样，只需修改用过的随机数即可。

第二，在第二年的抽样框复核时，即使住户人数有所变化，也无需重新制作住户清单列表，只需根据需要增减相关住户即可。

b．整群抽样

各坐标点所对应的户称为群的首户。从首户开始，按门牌号码自然排列顺序，将相邻的若干户一同列为一个群。

c．系统抽样法

需要计算抽样距离等相关数据。

②核实和替换样本

对于被抽中的住户，要进一步核实其是否用于民住，是否都有家庭户常住。如果有人常住，则判断为有效住户，进一步获取户主的姓名、住户门牌号码即可。没有门牌号码的住户，则要在备注栏中标注找到该住户的帮助性信息。如果抽中的住户为空户（无人居住），或用作非居住用途，则要加以替换补足。用来替换的样本，也一定要进一步核实和补全信息。

（6）调查实施

①训练访问员　　

组织所在地区的抽样小组和调查小组，对他们进行必要的培训。

②访问员实地调查

访问员必须按事先确定的实地坐标点、相关顺序和最优路线依次访问。访问员到了实地坐标点后，应将实地坐标点附近200米范围内的建筑物和其他地貌状况记录下来。如果放弃该坐标点，必须详细列出放弃的理由。这样督导人员可根据访问员描述的地貌情况，进行实地核查。

③质量控制

在调查过程中，督导要进行实地核查和指导。内容包括：

a．要对调查地图进行实地审核；

b．要对住户清单列表进行督导、审核。

二、随机数字拨号抽样

1随机数字拨号抽样的含义

随机数字拨号是一组概率抽样的技术，它最大的优点就是在抽样时，并不一定非要具备一个描述完整的抽样框；而它最大的缺点则是会遗漏未装电话的家户单位。随机数字拨号可以使用人工或电脑的方式来完成，既可采用简单随机数字拨号抽样法，也可使用多阶段随机数字拨号抽样法。

2随机数字拨号抽样的步骤

（1）搜集相关信息

在进行随机数字拨号抽样时，首先要搜集与电话号码相关的一些信息，这些信息能最大限度地减少无效拨打电话的数量，提高抽样效率。这些信息包括：

①搜集电话局编码

a．在抽样区域的地理范围内，无遗漏地搜集电话号码字冠的清单，这种字冠叫做中心电话局编码，简称电话局编码。

搜集电话局编码的最简单方法，是从电话公司索取。如果电话公司拒绝提供帮助的话，可以利用与抽样区域有关联的电话号码簿来搜集电话局编码，通常的做法是：

第一，从电话号码簿中找出与电话局编码对应的地址；

第二，以所有能找到的地址为依据，在地图上将每个电话局编码所界定的范围标示出来。b．使用这种方法需要注意的问题包括：

第一，电话局编码的确认过程可能会相当耗时，因此，在计算调查抽样成本时，应考虑到搜集电话局编码的费用。

第二，注意抽样区域的范围与电话局编码所界定的范围是否一致。如果二者相差太大，由于成本过高，就有可能放弃随机数字拨号抽样。但如果两个区域的范围相当接近，或许就能够利用地理上的筛选性问题，把那些居住在抽样区域之外的人排除掉，或者也可以考虑缩小或扩大抽样区域，使其与电话局编码所界定的范围相互匹配。

②确定电话局编码的线路数量

除了电话局编码外，最好还能从电话公司获得抽样区域内每个电话局编码所涵盖的、可以正常运作的家用电话线路的数量，因为这样就可以针对每个电话局编码所占的线路比例来抽取电话号码。在此情形下，最终样本会以电话局编码为依据，呈现出分层化的状态。如果无法从电话公司获得该信息，也可从电话簿中抽取几页有代表性的家用号码，对电话局编码与家用电话线路的比例进行估计。注意，进行估计的前提是各个电话局编码所涵盖的未登录电话号码的比例大致相等，否则就不能进行估计了。

③确认无效号码的范围

a．如果调查人员知道了抽样范围内的电话局编码，就可以利用各种不同的技术在这些编码后面再加入几位随机数字，形成一系列将要拨出的电话号码。但是，这些号码可能有效，即号码恰好对应家用电话；也可能是无效的，即号码不与家用电话相对应。如果能事先将这些无效号码去除掉，无疑会大大提高随机数字拨号的效率。

b．如果无法由电话公司取得无效号码的信息，可以从一般的电话号码簿中估计出此类信息，但是此种情况是一件极为耗时的工作，调查人员可以根据实际情况，决定是否要针对每个电话局编码来搜集无效范围的信息。

c．要特别注意的是，由于抽样区域中住户的流动性，以及伴随区域经济发展电话用户的增长，要及时对该区域的电话局编码、每个编码中所分配到的用户比例和未被使用的号码范围等有关信息进行周期性更新。

（2）随机数字拨号的技术

在搜集到相关的电话号码信息后，便可以利用一些随机数字技术进行随机数字拨号抽样。这些技术包括随机数表方法、数字添加技术和电脑辅助电话访谈方法。另外，还可以采用二阶段随机数字拨号方法，来减少简单随机数字拨号中无效电话号码的数量。

①随机数表

利用随机数表，以人工方式进行简单随机数字拨号抽样，是随机数字拨号最基本的技术。具体做法是：

a．在确定电话局编码的基础上，利用随机数表生成一系列随机数。

b．将随机数字加在电话局编码后面，形成一系列将要拨出的电话号码。通常有必要抽出比预期样本规模多一些的电话号码，因为用这种方法抽出的电话号码经常是无效的。

c．在抽出一定号码后，让访问员实际拨打号码，如果被拨打的号码不是一个正在使用的家用电话号码，就将其过滤掉，再接着拨打另一个被随机抽中的电话号码。继续这个过程直至产生足够多的有效电话号码为止。

②数字添加技术

在已有电话号码的基础上，还可利用数字添加技术来产生新的电话号码。具体做法是：a．从电话号码簿中抽取一些“种子”号码。

b．将某个（也可以是两个或三个）定数或随机数，添加在每个种子号码上。“往上加

1”就是一种添加数字技术。

使用添加技术时，需要特别注意，如果电话公司在分配未登录电话号码时，将它们集中于某个特定的后四位号码范围内的话，就可能导致这种添加数字技术产生严重偏差。因为此时由于依赖电话号码簿产生的“种子”号码，无法涵盖这些未登录号码，就会有相当数量的电话号码无法被抽入调查总体。

③电脑辅助电话访谈

随机数字拨号也可由电脑来完成，这时随机电话号码是由计算机程序产生的。

无论是人工拨号方法还是电脑辅助电话访谈，都需要事先搜集一份抽样区域内电话局编码。二者不同之处在于：

a．电脑辅助电话访谈中，可以直接将有关电话局编码线路数量和无效号码范围的信息，直接编入产生随机号码的程序中。

b．在电脑辅助电话访谈的情况下，可以一次只产生一个电话号码，供访谈人员进行拨号访谈使用。

c．在利用电脑或乱数表产生随机数字时，都有可能会在同一组电话局编码中产生重复的随机数字，这时就难免会产生完全相同的电话号码。在采用人工拨号方式产生样本时，很难核对出这种重复的号码，但借助电脑却可以轻而易举地查出重复的号码。

④二阶段随机数字拨号

二阶段随机数字拨号也是有效减少无效号码的抽样方式，尤其是当抽样区域过于庞大时这种方法更加有效。但这种方法所带来的便利性与有效性背后，是会略为提高该项调查的抽样误差。具体实施方法如下：

a．取得涵盖抽样区域所有家用电话的电话局编码的目录。如果调查的区域面积过大，可以从全部编码目录中随机抽出一些电话局编码来。

b．利用简单随机数字拨号的原则，在抽样区域内确定一个相对较小的家用电话号码群体，作为第二阶段中的种子号码，通常可抽取50～100个。与此同时，还要根据可联系上的电话的比例，抽选一些备用的种子号码。

c．让所有的访谈人员拨打种子号码，以判定哪些是可以联系上的家用电话。有时依据一个简短的过滤性问题，便可做出判断；但在另一些情况下，可能必须对每一户联络上的家庭进行真正无所遗漏的访谈。从实际调查看，通常需要花时间与金钱与电话公司联系，以判定那些从未被接听的电话号码究竟是否属于家用电话。

d．第一阶段确定的种子号码，代表了抽样区域内所有家用电话的一个简单随机样本。如果计划样本规模为1100个住户，那么在第二阶段中每个种子号码就必须派生出11次电话访谈。具体做法是针对每个第一阶段抽取出的家用电话号码，以随机方式将其后4码中的最后两位数加以替换，每个号码都至少进行11次替换，直到产生1100个各不相同的电话号码为止。另外，如果某些种子号码没有产生出预计应完成的电话号码数量，就需要在抽样后以加权的方式，将每个种子号码中所完成的不相等电话号码数量加以调整，以满足等概率抽样原则。

三、非抽样误差

1非抽样误差的含义

在调查研究中广泛存在着各种非抽样误差，它们主要是由于不完备抽样框、无应答和计量问题而产生的误差。非抽样误差中既有由于疏忽导致无回答而产生的随机误差，也有由于抽样框不完备引起的系统误差。相比之下，系统误差更易产生严重的估计偏倚。

2非抽样误差的类型和消除办法

（1）抽样框误差

抽样设计中，由于不完备抽样框引起的非抽样误差，通常被称为抽样框误差。在实际抽样中，造成抽样框误差的原因包括目标总体单元的丢失或增添、抽样框与目标总体存在复合连接等因素。

①误差类型及消除办法

在抽样设计中，经常会出现具体的抽样总体与目标总体不一致的情况，这时编制出来的抽样框就是不完备的。一般说来，抽样框误差包括以下几种情况：

a．抽样框丢失了本该列入的目标总体单元，即在编制抽样框时，没有将所有总体单元都编进抽样框。丢失总体单元不仅会低估总体单元的数量，而且在估计总体参数时也会出现偏差。解决总体单元丢失的具体办法有：

第一，在编制抽样框时，事先针对丢失单元确定若干入样规则，一旦发现并找到丢失单元，便按照入样规则将其与抽样框单元连接起来，指定丢失单元入样规则必须满足等概率原则。

第二，使用多个抽样框，即针对不同的总体对象，编制不同的抽样框进行抽样。

使用多个抽样框，要注意不要出现抽样框重叠现象，即要将那些同时出现在不同抽样框中的总体单元，从某一个样本框中剔除掉；还要考虑到对由不同样本框抽出的样本单元进行加权处理，以保证样本单元的等概率性。

b．抽样框包含了不应该列入的目标总体单元，即在编制抽样框时，将一些本来不符合调查条件的单元编进了抽样框。这样在实际调查中，就会使得抽样总体的单元数量大于目标总体的单元数量，产生估计偏差。解决办法是：可以在编制抽样框时通过一定程序将不符合条件的单元筛选出去。

c．抽样框与目标总体存在着复合连接，即抽样框中的单元与抽样总体中的单元不是一一对应关系，一个抽样框中的单元可能与多个总体单元相连接，或者反过来，一个总体单元连接多个抽样框中的单元。抽样框在前一种情况中“小”，在后一种情况中“大”。解决复合连接的方法是：指定样本框单元与总体单元唯一连接的规则，从而保证样本框单元与总体单元的唯一连接。

②流动人口的抽样

a．概念

流动人口引起的抽样框误差是指抽样框丢失了本该列入的调查对象而引起的误差。

b．解决办法

解决由于流动人口引起的抽样框缺失问题的第一步是想办法获得流动人口资料。从流动人口的管理现状看，目前流动人口是分两块管理，一块是集体户管理，另一块是居委会登记暂住人口。集体户的管理资料由公安局掌握，人口的平均年龄、教育程度等变量都是可以知道的；另外，乡镇或街道下面的村、居委会，比较清楚自己辖区内有多少暂住人口。

c．流动人口的集体户抽样的具体操作步骤

第一，从市公安局获得有关的流动人口资料，包括：全市流动人口集体户的总数，以及这些集体户所包括的流动人口总数；全市管辖流动人口集体户的派出所数目；每个派出所管辖的流动人口集体户数、每个集体户的流动人口数。

第二，确定管辖流动人口的派出所为初级抽样单位，使用PPS抽样方法抽出集体户。

第三，在每个抽中的集体户中用等距抽样的方法，抽取流动人员作为样本。

暂住人口的抽样是按照门牌号码通过抽样的方法抽取的。可以将进入居委会管辖的暂住人口，从居住地的角度与常住人口一视同仁，在居委会范围内按照门牌号码抽样。

d．由于集体户和暂住人口的抽样所依据的是不同的抽样框，将两部分抽样得到的样本合并在一起分析时，需要对流动人口或一般居民样本进行加权处理。另外，由于使用了两个抽样框，就必须处理抽样框之间的样本重叠问题。从理论上讲，对于流动人口中的集体户，可以考虑在这些人常住户口所在地将其删除掉。而对于流动人口中的暂住人口，则可近似认为他们在自己常住户口所在地的分布是零散的，相对于那些地方的常住人口而言数量较少，因此可以考虑忽略不记。需要注意的是，分层调查并加权抽样和区域抽样来解决流动人口抽样也是可行的方案。

③追踪调查中的样本轮换

a．追踪调查通常需要确定一个相对固定的样本，然后根据研究需要连续追踪调查这个样本中的个体，这些个体至少被调查两次。通过固定样本对个体进行常规的追踪，不仅可以连续地获得信息，而且还要求个体对过去的事情进行回忆，减少观察误差。

b．固定样本存在着个体的消失或“出生”问题，而样本量的减少或增加会降低估计量的精度。解决固定样本由于被调查对象失去耐心、不配合而产生的个体消失，除了可以对仍留在固定样本中的个体进行加权处理外，还可以建立轮换子样本系统。即在抽取固定样本的同时，将其按随机原则相应地划分为几个子样本，一旦调查进程达到了重新调查的时间上限，就轮换掉最先的子样本，换上其他新的子样本。

c．在样本轮换中首先要确定样本轮换率，即实行样本轮换时新引入调查期的样本单元数量占样本总量的比率；其次还要确定样本轮换时间，即实行两次样本轮换的间隔时期。

d．除了样本中个体的消失外，追踪调查中的个体“出生”情况也很普遍，为了防止在使用固定样本估算时产生缺失型错误和引入偏差，有必要在原来的抽样框之外，再构造一个由新“出生”的个体组成的样本框，并随时间的推移不断地抽取新的个体对固定样本进行补充。构造新样本框关键是要找到新“出生”个体的资料。

（2）无应答误差

无应答误差是抽样设计中，由于各种原因未能对调查对象访问成功，从而没有获得有关信息，进而由于这部分数据缺失而产生的估计偏差。无应答可按其性质分为无意无应答和有意无应答，前者为随机误差，后者则为系统误差，比较起来，后者产生的偏差更为严重。整个数据收集过程都有可能产生无应答误差。

①地址不准确及解决办法

a．当前地址不准确主要是由于大多数城市都普遍存在的人户分离现象（本人实际住所与户籍所在地相分离）引起的。产生城市中人户分离现象的直接原因有：住房动迁；多处居所；“空巢”现象。

b．解决“找不到”式无应答误差一个有效办法是按门牌号码抽样。

②访问时不在家及解决办法

a．调查对象访问时不在家，可以有两种理解：

第一，调查对象较长时间不在家，在调查持续进行的时间限度内根本找不到，入户抽样的调查人员可以将此人排除在抽样范围以外，即不用将此人登记在Kish表中；

第二，调查对象偶尔不在家，在调查进行的时间限度内有可能找到。

b．解决“访问时不在家”的办法是加大入户抽样的监控力度，具体监控方法有以下几种：

第一，入户抽样与入户调查相分离。可设法事先将户内调查对象抽出来，并将地址印在问卷上，然后再派访问员入户调查。如果访问员入户后，事先选定的调查单位不在家，需要更换样本，需要对性别和年龄进行控制。

第二，保证20%的回访率。访问员做调查的时候，必须尽量地把电话号码、联系方式找到。然后从已调查过的调查对象中随机抽出20%进行回访。

③拒访及其解决办法

发生“拒访”现象一方面可能是调查对象生病或没时间等客观原因，另一方面也可能是调查对象对调查不感兴趣或出于安全考虑等主观原因。解决“拒访”的有效解决办法有：

a．动员政府资源。政府的支持对于入户调查起着关键作用：

第一，居民在没有街道和居委会干部陪同的情况下，拒访率非常高。要想得到街道和居委会干部的配合，除了适当的经济补偿外，政府介绍信是必需的。不过，请居委会干部陪同入户时，为了避免他们在场干扰访问，需要坚持一个原则：只让他们把访问员带进门，进门以后就请他们离开。

第二，一些特殊的政府机关大院的调查，没有政府的支持是进不去的。

b．针对户一级抽样单位扩大样本量，即在抽取住户时根据一定比例，多抽取一些备用住户。根据经验得出的入户拒访率确定样本扩大的具体规模。

c．要提高问题质量，合理安排问题的顺序，特别是将那些容易引起拒访的隐私性、敏感性问题尽量放在后面；要注意提高访问员的素质。

（3）无应答替换

应答率又称回答率或调查回收率。在抽样调查中，应答率是评估收集的资料有效性的基本参数，即接受访谈的人数（或应答单位数）除以样本的人数（或单元数）。为保证高的应答率和调查资料的质量，调查者往往会在调查实施中对无应答现象进行处理。通常有两种处理方法：一种是对无应答单位不做替换，另一种则是用替换样本进行无应答替换。

①无应答替换的替换方法

a．明显替换是采用总体中的其他单位（元素）来替换样本中的无应答单位，目的是使最终的应答数量不低于样本规模，即抽样设计要求的样本中的元素个数。这种替换方法的一个明显特征就是要求替换样本单位不属于初始抽样单位，故又称“冷”替换。替换样本的抽取既可以用随机方法，也可用非随机方法。

b．补充抽样是在对应答率进行估计的基础上，采用与抽取初始样本同样的方法独立地抽取数组替换样本，在执行调查过程中，不断地补充加入，直到最终应答单位数量达到样本规模为止。该方法的操作步骤如下：

第一，设样本规模为n，预计实际调查中应答率下限为k_L，上限为k_H。

第二，抽取一个容量为nk_H^-1的初始样本，并以同样方法独立地抽取m组替换样本，每组替换样本的容量为n（k¹_L-k_H^-1）／m。

第三，最终样本容量为nk¹_L +mn（k¹_L-k_H^-1）／m=nk_L^-1，由于应答率下限为k_L，故最终应答单位数量不会低于nk_L^-1×k_L=n。

c．二重抽样是指对初始无应答单位再进行一次随机抽样，然后对被抽中的无应答单位的第二重样本再次进行调查，最终利用第一重样本和第二重样本的应答数据来估计总体参数。该方法的操作步骤如下：

第一，从总体中抽取一个规模较大的第一重样本，采用费用较低的调查方法（通常为邮寄问卷调查）对其进行调查，获得初步数据，这时一般会出现较高的无应答率。

第二，对这些无应答单位再进行一次随机抽样，获得一个规模较小的第二重样本，并采用当面调查的方式，派调查员对这个较小的第二重样本进行细致的调查，力求在具有较高应答率的情况下获得应答数据。

第三，将第一重样本的应答数据和第二重样本的应答数据结合起来，对总体参数做出估计。

②无应答替换方法的应答率计算

a．在进行无应答替换的调查中，原则上应在全面保留替换记录的基础上，计算出初始应答率，并在确保替换样本与初始样本相似，或应答率保持不变的前提下，以初始应答率代表调查应答率。

b．可以利用实际发生的访谈数量和最终应答单位数计算出的估算值，对替换样本与初始样本间的相似性做出检验；如果估算值与初始应答率相差不大，说明替换样本与初始样本间相差不大，反之亦然。但如果没有全面保留替换记录，则在使用估算值来代表调查应答率时，就需要特别谨慎地进行无应答替换，以确保替换样本与初始样本间的相似性。

c．在对无应答单位进行替换的调查中还必须注意，计算应答率时要考虑无应答替换的影响，而实现这一点的条件是全面保留无应答替换的相关资料。

d．要特别注意采用明显替换方法解决无应答现象产生偏差的潜在可能性。

总而言之，社会调查应答率是由多种因素决定的，其中有宏观社会结构方面的因素（比如人口流动、犯罪率、社会信任等），也有地域／社区层面的影响（碰到高层公寓、封闭式宿舍等），还有调查者研究方案设计和实施方面的因素。

提高应答率的唯一办法就是尽可能完善设计与实施方案，想方设法克服那些能够被克服的困难（通过与政府相关部门合作，提供适当的激励机制，想办法增加访问员与被访人之间的互信，等等），坦然面对那部分由于结构性因素产生的无应答。

第三章 抽样实务及问题

3.1 复习笔记

第三章　抽样实务及问题

3.1　复习笔记