当前位置:首页?>?网事调查 > 正文

抽样调查 - 第二部分doc

发布时间: 2019-08-04 13:23:58 阅读: 77

  1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

  第二部分 抽样调查 在社会主义市场经济的新形势下,调查主体发生了很大变化,依靠传统的调查方法,难以实现统计工作“快、精、准”的要求。统计数据的质量和时效性是统计的生命,加快统计体制改革,建立适应社会主义市场经济需要的统计体制,最迫切的任务是改革调查方法体系,推广抽样调查技术。本章重点介绍抽样调查方法及应用,旨在提高统计人员的抽样调查理论水平及实际应用能力。 第一节 抽样调查的基础知识 一、抽样调查与非抽样调查 统计调查是获取数据(资料)的一种重要手段,它又分为全面调查和非全面调查两类。 1、全面调查 是针对总体的每一个单元都进行信息搜集的调查,故亦称为普查。如我国进行的人口普查、工业普查、农业普查、基本单位普查等等,我国长期实行的统计报表制度,由于具有行政指令性,统计数据全面逐级上报,也属于普查的范畴。普查可以使人们对调查对象进行全面的了解。在理想的情况下,即对每个调查对象的测量结果都准确无误,调查的对象既没有重复也没有遗漏,数据在汇总中未出现任何差错,普查结果是准确可靠的。但在实际工作中,普查要投入大量的人力、物力,调查的规模庞大,组织工作艰巨,且需较长时间,因此普查不可能频繁进行。普查的前提至少要满足以下条件中的一个: 1)要了解的总体信息内容相对比较简单,比较容易调查; 2)要了解的总体信息内容十分重要; 3)不仅要了解总体的信息,还要了解总体的许多分组分类的信息; 4)调查主体既有足够的资金力量,同时又有足够的动员力量。 2、非全面调查 仅对总体一部分单元进行信息搜集的调查。抽样调查是非全面调查中最常用、最重要的一类。 3、抽样调查 也称样本调查是根据部分实际调查结果来推断总体标志总量的一种统计调查方法,属于非全面调查的范畴。它是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单元来进行调查、观察,用所得到的调查标志的数据以代表总体,推断总体。 抽样调查数据之所以能用来代表和推算总体,主要是因为抽样调查本身具有非全面调查所不具备的特点: 1)调查样本是按随机的原则抽取的,在总体中每一个单元被抽取的机会是均等的,因此,能够保证被抽中的单元在总体中的均匀分布,不致出现倾向性误差,代表性强。 2)是以抽取的全部样本单元作为一个“代表团”,用整个“代表团”来代表总体。而不是用随意挑选的个别单元代表总体。 3)所抽选的调查样本数量,是根据调查误差的要求,经过科学的计算确定的,在调查样本的数量上有可靠的保证。 4)抽样调查的误差,是在调查前就可以根据调查样本数量和总体中各单元之间的差异程度进行计算,并控制在允许范围以内,调查结果的准确程度较高。 基于以上特点,抽样调查被公认为是非全面调查方法中用来推算和代表总体的最完善、最有科学根据的调查方法。 根据样本抽取方法的不同,抽样调查可分为概率抽样和非概率抽样两类。 4、概率抽样 也称随机抽样是从构成总体的所有单元中按一定程序随机选择一部分单元进入样本的抽样方法。 概率抽样具有以下特点: 1)能够表明一个确定的样本包含哪些单元。 2)对每个可能的样本,都有一个确定的被抽取的概率。 3)以随机原则抽取样,不受任何主观因素的影响,使每一个单元都有一定的概率入选样本。 4)从样本数据估计总体特征时,需要考虑该样本被抽中的概率。 概率抽样的优点是能够保证样本的代表性,避免人为因素的干扰。概率抽样还有一个优点是根据概率样本估计总体特征时,可以对样本产生的抽样误差进行估计。这是非概率抽样所无法比拟的。概率抽样又分为多种形式:简单随机抽样、不等概率抽样、分层抽样、多阶抽样、整群抽样和系统抽样等等。 5、非概率抽样 是相对于概率抽样而言的,是指样本不是按照一定的概率抽出,而是由抽样者主观抽出或受访者自愿进入样本的抽样方法。非概率抽样有多种方式,主要有判断抽样、便利抽样、自愿抽样、滚雪球抽样、配额抽样等,我们常用的典型调查和重点调查都属于非概率抽样。 由于非概率抽样不能保证样本的随机性,因此根据非概率样本估计总体特征时,不可避免地以下缺点: 1)难以评价样本的代表性。 2)无法估计抽样误差。 3)偏倚往往较大。 抽样调查具有明显优点,但抽样调查与全面调查并不是完全对立的,在实际工作中发挥着各自的特殊作用,需要多种方法结合起来使用。 首先,抽样调查可以和普查相结合。抽样调查可以作为普查的补充调查以节约成本,而且抽样调查的数据也可以用来评价和校正普查的数据。普查可以为抽样调查提供一些必要的背景信息,为深入的抽样调查提供分层的依据等。 其次,非概率抽样可以作为概率抽样的补充。当我们很难对全体进行抽样,如监测大气质量时,典型调查就是较好的替代方法。 在抽样调查的实际工作中,经常是要将几种抽样方法结合起来应用。比如,城市居民的收支调查,是将二重抽样、多阶段抽样、分层抽样、机械抽样等多种方法结合起来使用。 二、总体与样本 总体和样本是抽样调查中最基本和最常用的一对概念,因为抽样的本身就是通过样本对总体作出估计和推算。 1、总体 就是我们研究也即进行调查对象的全体。它是由研究对象中所有性质相同的个体所组成的,组成总体的各个个体称作总体单位或单元。例如全国每年进行人口变动量抽样调查,调查的标准时点是上年的12月31日24时,那么全国在该时点生存的每一个人都是调查对象,于是全国在该时刻生存的所有人就构成此次调查的总体。再如某地进行企业调查,调查对象是各行业、各种所有制及各种规模的企业,那么在该地所有国有的、集体的及个体的,工业、商业及交通运输等所有行业,大小不等的所有企业构成一个总体。因此可见,总体的限定是人为的。对于一项调查,调查对象必须明确而不能有丝毫的含混,在抽样调查中,总体一般总是明确的。 总体根据其包括总体单位的数目可以分为有限总体和无限总体两种。有限总体是指总体单位能够明确确定,单位数目是有限的。在社会经济的调查中其对象常常是有限总体,如一定时间和空间的企业数、人口数等。反之,若总体中包括的单位为无限时则称为无限总体。例如在科学试验中,试验数据的观察值往往是无限的。 总体又有目标总体和实际总体之分,如了解济南人拥有手机的情况,目标总体就应为全体济南人,但考虑一些年龄段(如老人和儿童)的人拥有的比例很低,如果全部调查难免事倍功半,于是实际调查时会加上时空年龄和居住时间等限制,这就形成了一个实际总体。 2、抽样框与抽样单元 要从一个总体中抽选样本,很重要的一个问题是需要一个包括全部总体单元的一个框架,因此用来代表总体,从中抽选样本的一个框架就称作抽样框。构成抽样框的单元称为抽样单元。 抽样框可能以各种形式出现:名单、手册、地图、数据包……。无论抽样框采取何种形式,在抽样之后,调查者必须能够根据抽样框找到具体的抽样单元。因此,1)抽样框必须是有序的。即抽样单元必须编号,且根据某种顺序进行了排列。2)抽样框中包含的单元务必要“不重不漏”,否则将出现抽样框误差。 抽样单元不仅指构成抽样框的目录项,同时还表示该目录项所对应的实际总体中特定的一个或一些单元。抽样单元不一定是组成总体的最小单位—基本单元,可能包含一个或一些基本单元。在简单随机抽样中,抽样单元即为基本单元;而在整群抽样中,群即为抽样单元,而群可能包含相当多的基本单元。 抽样单元还可分级。一个大的抽样单元可以分成若干小的单元。如,在对我国进行人口情况抽样时,可以将省份作为抽样单元,先抽省,在省内抽样时又可以将县作为抽样单元,依此类推。 三、总体特征与估计量 1、总体特征 抽样调查的目的在于用样本指标去估计某些特定的总体特征。总体特征是总体某个特征或属性的数量表现。单元的属性通过测量表示为变量,可以记为。仅是这个单元某属性的测量结果,同一单元还可测量其他属性,从而得到、等。总体特征就是对单元属性的概括性数量表现。最常见的总体特征就是 总体平均数,这里的就是第ī个单元的变量值,N就是 总体中单元的数量,即总体规模。 通常我们要估计的总体特征有下列4种: 1)总体总值:例如我省人口总数。 2)总体均值:例如家庭月平均收入、粮食的平均亩产量等。 3)总体比例:总体中具有某种特定特征的单元在总体中所占的比例或百分率。例如人口自然死亡率、拥有汽车的家庭在某地全部家庭中所占的比例等。 4)总体比值:总体两个不同指标的总和或均值的比值。例如家庭中用于食品支出在全部支出中所占的比例。 2、估计量与估计方法估计量是从样本的第n个单元计算出的对总体特征的估计。估计量首先是一个随机变量,它取决于样本设计和正好被选入样本的单元的特定组合。因此,估计量的一个特定取值,也就是一个特定的估计值只是同一样本设计所得到的许多可能的估计值中的一个。相反,总体特征是由总体中的全部N个值所决定的,虽然总体特征是未知的,但它是一个常数,不受抽选的样本的影响。 用估计量来估计上述各总体特征,最常见的估计方法是简单线性估计,在简单随机抽样中就是用样本均值直接估计总体均值: 由于总体总值和总体比例皆可化为总体均值,因此可用样本均值再推导出总体总值的估计: 及总体比例的估计: (这里为示性变量) 除了简单线性估计,还可以借助辅助变量,对总体特征进行间接估计,用样本特征的非线性组合表示总体特征。 3、抽样分布对一个固定的总体,在确定的样本设计和样本量的条件下,估计量的所有可能取值及其出现概率的序列就是该估计量的抽样分布。 抽样分布的存在,是我们抽样推断赖以存在的基础。每次抽样只能得到估计量的一个实现值,不能由此得知估计量的分布,但如果不断地抽取样本,计算每个样本的估计值,然后把这些估计值绘制成频率分布图。抽取的样本越多,所得到的频率分布图就越接近于估计量的真实分布。抽样分布显示。当从一个比较大的总体N中抽取一个中等容量(30以上)的样本时,无论总体是何种分布,其样本均值Y的抽样分布都近似于正态分布。因此在大样本的情况下可以用正态分布来作区间估计。 四、误差与精度 凡是调查就一定有误差,误差或大或小总是存在的,不可能完全避免。在抽样调查中,误差可分非抽样误差和抽样误差两大类。 非抽样误差不是由抽样引起的,它包括调查误差,不完整的抽样框引起的误差,不回答误差以及由于填写或录入调查数据中的谬误而产生的误差。非抽样误差与样本量大小无关,这些误差在全面调查中也是存在的,减少非抽样误差的方法主要是严格调查程序,规范调查及加强人员的培训和管理,合理地设计问题和答卷,改进测量方法和工具。 抽样误差是由于抽样造成的误差,是用样本数据对总体特征进行估计所引起的代表性误差。 由于每次只是抽取一个样本,而这个样本中包含哪些单元是随机的。不同的样本由于包含的单元不同,得到的估计值自然不同。各个估计值与总体特征之间不可避免地存在差距,由此产生了抽样误差。与非抽样误差不同的是,抽样误差是能够计量的,即可用各种量值来表示,而且它可以得到控制。 1、均方误差、方差与偏倚 设总体某个待估的参数为,用样本数据计算的一个统计量作为的估计,也称为的一个估计量,简称估计。用估计的实际误差是-,由于是未知的,因此-也是未知的,这说明根据一个样本,实际误差是不可知的。按一种抽样方法所能得到的所有可能样本,对每个样本计算一个估计值,计算这些估计值的平均实际误差,也即实际误差-的均值即期望E(-),则由于误差的正负抵消也不能反映误差的大小。因此我们转而考虑平均平方差,即实际误差平方的均值 MSE()=E(-)2 MSE()称为均方误差(mean square error)。由于未知,在通常情况下,它仍然是未知的。但均方误差可以分解成以下两个部分: MSE()=E[(-E())+(E()-)]2 = E[-E() ]2 + [E()-]2 +2 E[-E()] [E()-] =E[-E()]2 + [E()-]2 式中的第一项 V() E[-E()] 2 是的方差(variance),而第二项 B2() [E()-]2 是的偏倚(bias)E()-的平方。 偏倚为零的估计量,也即满足 E()= 的估计量,称为无偏估计量(这种无偏称为是设计无偏的)。对于无偏估计量,它的均方误差等于它的方差。 均方误差与方差的量纲均是所取指标值单位的平方,为更直观起见常用它们的平方根来表示相应的数值,方差的平方根称为标准差(standard deviation) S() 估计量的标准差也称为标准误差或标准误(standard error)。 2、误差限与置信度 估计量的精度通常用误差限来表示。所谓误差限即是在某种概率意义下的最大绝对误差,这里的概率称为置信度。置信度为的绝对误差限d 满足: Pr(-≤d)= 而置信度为的相对误差限(relative error limit)满足: = 通常置信度1-是某个接近于1的数值,例如99%(=1%),95%(=5%),90%(=10%)等。 误差限与估计量的标准差之间有一定的关系(假定估计量是用的) 根据正态分布的性质,若 是标准正态分布的双侧分位数,则 =1= 由此给出的置信度为=1 的近似置信区间: 例如对 =95%, =1.96,则的近似置信区间为 3、精度与费用精度是误差的相反数,提高精度即减少误差。由于非抽样误差不可计量,精度取决于抽样误差的大小。对可用估计值,在样本量较大情况,抽样误差又取决于方差(或标准差)的大小。在抽样误差中,精度的估计主要就是估计量的方差估计。影响估计量方差的最重要因素是样本量,而样本量与调查费用直接相关,样本量愈大,费用就愈高。 4、抽样效果与设计效果 在抽样调查中经常要比较两种不同抽样设计的好坏,评介抽样方法的标准通常用抽样的方差和费用两方面来进行。一个好的抽样方案要求在费用固定的情况下使用方差尽可能地小,或者在方差一定的情况下使用费用最省。 抽样效率就是指两个抽样方案的抽样方差之比。当某个估计量的方差比另一个估计量的方差小时,则称方差小的估计效率比较高。由于方差的大小与样本的容量有直接关系,因此在比较时,通常以样本量相同时的方差进行比较。如果估计量是有偏估计时,也要考虑偏差的因素。 设和分别为两种抽样设计的估计量,它们的均方误差分别为MSE()和MSE(),若MSE() MSE(),则称比有效。抽样效率用E表示,则和相比的抽样效率为: E 将两个估计量的方差相比,若,则称比精确。当和均为无偏估计时,精确的比较和效率的比较两者是一致的。 美国统计学家Kish提出一个设计效率的指标,用Deff表示(Design Effect的简写),就是把一个设计方案的方差与简单随机抽样的方差进行比较,即: 其中表示设计方案的方差,表示用简单随机抽样时估计量的方差。当Deff小于1时表示设计方案的效率高于简单随机抽样,反之,效率低于简单随机抽样。设计效果除用来评估比较复杂的的抽样方案的效率外,还可利用它来求复杂抽样方案的容量,因此是一个很有用的指标。 第二节 简单随机抽样 一、什么是简单随机抽样 1、简单随机抽样(也称纯随机抽样,SRS抽样)这是一种最基本的抽样方式,就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单元。 设总体的大小为N,从中任意抽取容量为n的样本,每一个样本都有同样的机会被抽中。简单随机抽样通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。 在具体实施抽样过程中,总是逐个单元抽取的,要求每个单元有同样的概率被抽中,简单随机抽样可以分为重复抽样和不重复抽样两种,重复抽样也称作有放回抽样,即在抽取下一个样本单元时,把上一个抽中的单元放回去,因此一个单元有被重复抽中的可能;重复抽样也称无放回抽样,即抽中的单元不再放回去,因此一个单元只有一次抽中的机会。在社会经济的抽样调查中一般是不重复抽样,本节中所指的简单随机抽样都是不放回的。 不放回抽样,即同一单元不能在样本中重复出现,那么总共有种不同的取法,也就是说共有个可能的不同样本。 例2.1 考虑从一个N=6的总体中抽取n=3的样本,设这6个单元的值分别为=21,=12,=15,=24,=6,=18,则总共有20个样本,每个样本所包含的单元号及其数值见表2.1 表2.1从一个N=6的总体中抽n=3的全部可能样本 样本 编号 样 本 单元号 样本数据 样本均值 样本方差 1 1,2,3 21,12,15 16 0 21 2 1,2,4 21,12,24 19 3 39 3 1,2,5 21,12,6 13 -3 57 4 1,2,6 21,12,18 17 1 21 5 1,3,4 21,15,24 20 4 21 6 1,3,5 21,15,6 14 -2 57 7 1,3,6 21,15,18 18 2 9 8 1,4,5 21,24,6 17 1 93 9 1,4,6 21,24,18 21 5 9 10 1,5,6 21,6,18 15 -1 63 11 2,3,4 12,15,24 17 1 39 12 2,3,5 12,15,6 11 -5 21 13 2,3,6 12,15,18 15 -1 9 14 2,4,5 12,24,6 14 -2 84 15 2,4,6 12,24,18 18 2 36 16 2,5,6 12,6,18 12 -4 36 17 3,4,5 15,24,6 15 -1 81 18 3,4,6 15,24,18 19 3 21 19 3,5,6 15,6,18 13 -3 39 20 4,5,6 24,6,18 16 0 84 平均 16 0 42 表2.1中的20个样本中,在抽样前并不能预测到究竟哪一个样本被抽中。很自然地,我们要求这20个可能的样本每个被抽中的概率都相等,即都等于1∕20。按这个规则进行的抽样即是(不放回的)简单随机抽样。 2、简单随机抽样的实现对一个总体进行简单随机抽样,首先要有一个抽样框,根据抽样框将总体中的N个可识别单元与N个数码编号形成一一对应,然后从这N个编号中,按无放回抽取出n个样本单元,即以1∕N的概率从N个单元中抽取第一个样本单元,取 出后不放回,再以的概率从剩下的N-1个单元中抽取第二个样本单元,取出后不放回,再以的概率从剩下的N-2个单元中抽取第三个样本单元,……,如此继续,直至取满n个样本单元。 从N个单元中以每个均等的概率1∕N抽取一个样本单元,实践中并非轻而易举之事,目前通常采用随机数表、计算机、投掷随机骰子等办法产生随机数,以保证每次抽取对各单元有相等的概率。随机数目表是最常见的一种方法,这种表是由计算机或其他随机方法制成的,即0,1,2,…9这十个数字出现的机会是等概率的,但排列的顺序是随机的,使用时首先将总体单元编上号码(从1-N),然后根据总体单元的数目决定从表上抽取数字的位数,假定N=638,是三位数,就需要在表上取三位数,取数的方法可以用随机的起点开始,预先规定取数取三位数,抽取的数字在638以下,相应的单元就为抽中单元,若抽中的数字大于638,则予以舍弃,继续抽取,在不重复抽样时遇到重复号码也同样舍弃,直至抽满n 个样本单元为止。 如一商店为了了解顾客对商店服务的意见,对商店门口对走出商店的顾客进行调查,时间顺序每五分钟抽选一顾客,获得一个样本,当调查的目标量与顾客离店时间完全独立,即各类顾客离店的时间顺序是完全随机的,以上按时间顺序系统地抽出的样本可看成是一个简单随机样本。 3、简单随机抽样的优缺点简单随机抽样的抽样理论较为成熟,其他抽样方法都是在简单随机抽样的基础上发展起来的,在所有抽样方法中简单随机抽样是最简单的一种抽样方法,同时也是抽样效率较高的,在相同的样本量下,简单随机抽样的精度比许多实际抽样要高,也是在实践中应用较广的一项抽样技术。 但简单随机抽样也有其局限性。首先从简单随机抽样实现方法中可以看出,它有一个前提,即要求总体中每个单元都有一个号码,这意味着必须包含所有单元的一个完整抽样框,而当N很大时,这常常是不具备的,或准备这样的抽样框很费事,难以做到。其次用简单随机抽样抽得的样本常很分散,要找到每个样本单元实施调查在实际中会遇到很多困难。 二、总体均值和总体总量的估计 一个抽样方案降了抽样方法外,还应有一个对总体目标量的估计,同时对给出的估计量的方差以及对此方差的估计都应有明确的预见。在简单随机抽样中通常用样本的标志值来估计总体的相应标志值。 1、总体均值的估计在简单随机抽样中,样本均值为总体均值的无偏估计,而且随着样本容量n的增大,样本的均值趋向于正态分布,其方差用 ()表示。因此可以利用正态分布的原理对总体均值作出区间估计。简单随机抽样总体均值的估计公式: = 样本均值的方差公式: ()= = = 以上方差公式中都代表总体方差,只是二种不同的表示方法,在抽样理论中,惯用的方差是,当用时有限总体的修正系数为,当用时其修正系数为,也可以写成1-f,这里f=称为抽样比。 在抽样实践中总体方差常常是未知的,也需要从样本中获取信息。数理统计证明了,样本方差的数学期望是总体方差,在重复抽样的条件下E()=,因此在均值的方差中用样本方差代替总体方差就得到方差的估计量,用()表示,因此 在大样本的情况下,样本均值趋近于正态分布,在社会经济的抽样调查中一般用95%的可靠性就可以了,所以总体均值置信区间为±2()。但是如果为小样本,当总体服从正态分布而方差未知时,用s代替时需要用t分布进行区间估计。 例2.2某工厂欲了解工人由于停工待料及机器故障所形成的每个工人平均每贮存器的工时损失数。全厂共有750个工人,从是抽取50个工人为样本进行调查,得到每个工人平均每周损失工时数为10.31小时,且=2.25,试估计全厂每个工人平均每周工时损失数。 解:样本均值为总体均值的无偏估计,因此点估计为: 因为是大样本,可以用来估计总体方差。所以 即平均每人每周由于停工待料及机器故障的工时损失约为9.9—10.72小时。 例2.3某乡共有484户,现欲了解该乡家庭副业的平均月收入。抽出9户的月平均家庭副业收入分别为33.5,32,52,43,40,41,45,42,42.5,39。假设该乡的家庭副业收入近似正态分布,试估计该乡每户的月平均副业收入,并以95%的置信系数对全乡这一总体平均数作出区间估计。 解:首先计算样本平均数作为总体平均数的估计量: 为了确定置信区间,需要知道总体的方差,而总体的方差未知,所以只能用样本方差来估计: 由于用样本方差代替总体方差,而且样本的容量比较小,所以应该用t分布,当时,自由度为n-1=8,查表得t=2.036,故估计该乡每户平均副业收入是: 40.89±2.306(),其中 所以大约在40.89±2.306×1.9722之间。 2、总体总量的估计一些抽样调查的目的是要估计总体总量,估计总体总量的公式在求平均数的基础上乘以总体单位数N。 总体总量的计算公式: 同样,方差的估计量: 例2.4根据例2.2资料,欲估计全厂由于停工待料及机器故障造成的工时损失数。 解:例2.2中已经计算了平均每个工人的工时损失数,又知全厂共有750个工人,因此, 全厂的工时损失数为工时,置信系数0.95。 3、总体比例的估计 抽样调查中还经常调查总体中具有某种特征的单位数所占的比例。例如工业产品中有缺陷产品所占的比例;测验中同意某一项政策的人所占比例;住户调查中具有彩色电视机的户数占的比例等等。这种抽样可以看作是概率论中的贝努力试验,其每一个单元的观察结果只能分成两种情况,或是属于这一类或是不属于这一类。我们常常把总体中具有某种特征的单位令, 不具有某种特征单位令。因此当样本容量为n时,具有某种特征单位数为 其所占的比例为 总体比例的估计公式: (取1或0) ,其中。 例2.5某大学从高年级学生中抽取准备考研究生的人数所占的比例,设N=300,n=100,若调查结果有35人准备考研究生,试估计总体中报考研究生所占的比例?(置信系数为0.95)。 解: =0.001532 。 三、样本容量的确定 1、样本容量的确定原理 在抽样设计中,样本容量n的确定是实施抽样的必要前提和重要内容。对于一种确定的抽样方法,样本量愈大,抽样误差就愈小,估计量的精度就愈高。但样本量并不是愈大愈好,因为它还受费用的限制。抽样愈多,费用也就愈大,确定样本量的大小还需要考虑精度和费用。 对于简单随机抽样而言,确定样本量n的大小要首先分析影响样本容量n的因素有哪些? n的大小会影响抽样误差,如果n足够接近于N,则抽样误差就会接近零。 由可以解出,因此影响样本容量n的有三个基本因素:总体规模N,(目标),抽样误差和总体方差S2。 等式右边除了总体规模N属于已知外,一方面总体方差S2属于未知(甚至在相当多的场合,它本身往往就是调查的最终目标),另一方面(目标)抽样误差既与总体方差S2有关,人们习惯上也不以此作为调查精度的指标,而是用置信度和绝对误差限替代(目标)抽样误差,所以难以利用上式具体确定样本容量n的大小。 根据双侧百分位点的定义,有,比较两式,有或 ,可知 即影响样本容量n的因素现在可以表现为四个:总体规模N、置信度、绝对误差限和总体方差S2。 在正态假设下,总体规模N(譬如10000)、绝对误差限和总体方差S2一定时,置信度对样本容量n的影响通过下表反映出来。置信度越大要求超高,所需的样本容量越大。 表2.2在其他条件相同的条件下,样本量受置信水平的影响情况 0.90 0.95 0.99 1.645 1.96 2.58 1.19 1.73 相反,在另外其他三个条件不变时,绝对误差限度d的要求越小,所需的样本容量n越大,反之亦然。例如,总体规模N=10000,置信度,总体方差S2=0.25时,所需的样本容量n随绝对误差限的变化见下表: 表2.3在其他三个条件给定时,样本量受绝对误差限的影响情况 0.14 0.10 0.04 0.31 49 96 597 1009 总体方差S2是反映总体变异程度大小的指标,尽管我们事先不知道其准确数值(所以这时就要进行所谓预估),但客观上对样本容量具有直接影响,当总体方差S2=0这样极端的情况发生时,构成总体的每个个体情况都一样,此时只需调查一个个体的情况已足以了;当总体方差S2增大时,为了达到规定的精度,往往要增加样本容量,反之亦反。表2.4表示的是总体规模N=10000,置信度,绝对误差限=0.05时,所需的样本容量n随总体方差S2的变化情况。 表2.4在其他三个条件给定时,样本量受总体方差的影响情况 S2 0 0.09 0.16 0.21 0.24 0.25 n 1 138 250 328 375 391 总体规模N在确定样本容量n的过程里所起作用与其本身的大小有关,对于小规模的总体,作用明显;对于中等规模的总体,作用中等;对于大规模的总体,作用很小。例如,置信度,绝对误差限度=0.05,总体方差S2=0.25时,所需的样本容量n随总体规模N的变化见下表: 表2.5在其他三个条件给定时,样本量受总体规模的影响情况 总体规模N 样本总量n 50 44 100 80 500 222 1000 286 5000 370 10000 385 100000 398 1000000 400 10000000 400 然而通过前面几种估计量的性质讨论,我们知道不同的估计量其误差是不同的,所以估计方法也是影响样本容量的因素之一,这种来自于不同抽样方式的影响有一个专门的术语——设计效应。 在实际调查时,无法保证从每个被抽中的样本点上都能如愿地获取有效有用的信息,为了使调查估计值达到要求的精度,有时需要根据预计的情况调整样本量的大小,如预计有效回答率为75%,那么样本量则应定为: n===400 2、样本量的确定步骤 第一步:确定抽样调查的估计精度水平,包括误差限度(注意有绝对误差限与相对误差限度之分)和置信度(并通过查表查得)两项内容; 第二步:按照保守(即让样本容量宁大勿小)原则,实施对总体方差S2预估。 S2自然是未知的,否则就无实施抽样调查的必要了,但问题在于,若不知道总体方差S2(或标准差S)研究者则无法计算初始样本量。一般用5种办法解决这一矛盾:(1)利用先前的调查结果和经验;(2)利用预调查或试调查的结果;(3)利用同类或相似或有关的二手数据的结果;(4)利用某些理论上的结论(例如总体比例估计问题中常取S2=P(1-P)=0.25;(5)利用富有经验的专家的判断。 第三步:根据给定估计精度水平和总体方差S2的预估结果,同时考虑总体规模N的大小,计算简单随机抽样方式及回答率为100%两个前提条件下所需的样本量,称初始样本量n0: 第四步:确定抽样方式,并根据不同抽样方式的设计效应deff对样本容量进行调整: 设计效应deff定义为任意抽样方式下的抽样方差除以简单随机抽样方式下抽样方差的商,所以, 简单随机抽样的 - 分层随机抽样的 - 整群随机抽样的 - 机械随机抽样的 通常由于总体方差未知而事先无法得知,此时在经费允许的前提下,样本量的取值应坚持保守主义原则,尽量大一点,以便留有余地,例如将分层随机抽样的定为1。 第五步:判定有效回答率,并根据有效回答率对样本容量进行再调整: 第六步:在需要得到分组数据并对这些分组数据的精度有事先约定或要求时,例如全国性调查往往附带对各省市自治区的相应数值也给出规定精度的估计,还应分别计算各组所需样本量,然后经各组累计加总得到总体所需一般认为样本量要足够大,使得每个主组的容量至少为100,而每个次组的容量至少也有20-50。 第七步:最后,为了最终确定样本量,除严格按照上述步骤审慎予以考虑外,还必须仔细权衡费用、时间、调查机构拥有或可动用的各种资源方面的限制。在市场经济条件下,只考虑理论要求不顾及财务成本方面的约束,是不可行的。 第三节 分层随机抽样 一、定义和符号 如果总体可以分成互不重迭且穷尽的若干个子总体,亦即每个单元必属于且仅属于一个子总体,则称这样的子总体为层,设L个子总体所包含的单位数分别为,则有: 1、分层抽样(也叫类型抽样,STR抽样)。就是将总体单元按其属性特征分成若干类型或层,然后在类型或层中抽取样本,这样的抽样称为分层抽样,所得的样本称为分层样本。 2、分层随机抽样如果每层中的抽样都是独立地按照简单随机抽样进行的,那么抽样就称为分层随机抽样,所得的样本就称为分层随机样本。 3、分层抽样的特点分层抽样是一种很常用的技术。由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。 1)可同时对子总体进行参数估计。由于抽样在每层中独立进行,所以各层的数可以用于对本层(子总体)进行参数估计,而不仅限于对总体参数进行估计。 2)便于依托行政管理机构进行组织和实施,同时还可根据各层的不同特点采用不同的抽样方式。如了解我省居民的人均年收入水平,可按调查对象所在的市进行分层,也可按市所在的县进行分层,还可按中、东、西部进行分层等等。 3)可使样本在总体中分布更加均匀,从而具有更好的代表性。这样就避免了样本分布不平衡的现象。以调查我省居民人均收入水平为例,倘若采用简单随机抽样的方式进行调查,对于某些人口较少的市或县,很可能会出现样本量过小甚至没有样本点的现象。 4)提高参数估计的精度。抽样调查的目的在于对总体(或子总体)的参数进行估计,分层抽样的精度一般要高于其他抽样方式。 4、符号 设总体分为L层,以h表示层的编号,h=1,2,…,L。 第h层的单元数为,它是已知的,且。 称为层权,它也是已知的。 以分别表示h层总体和样本中的第i个单元的指标值。 , 分别表示h层(总体)均值和h 层样本均值(其中是h层的样本量); , 分别是h层总量及h层的样本总量; , 分别是h 层方差及样本方差; 是h层的抽样比。 二、简单估计量 1、对总体均值或总量的估计 在分层抽样中,根据各层的样本,先给出层均值及层总和的某个适当的估计,然后总体均值的估计取为层估计对层权的加权平均: 而总体总量Y的估计直接采用各层总量估计的总和: 如果每个,则 特别对于分层随机抽样,一般均取为简单估计:层样本均值,因此的简单估计为: 而总体总量Y的简单估计为: 对于一般的分层抽样,若是的无偏估计,则也是的无偏估计: 且由于各层的抽样是相互独立的,因此 对于分层随机抽样,由简单随机抽样简单估计量的性质,不难得到相应简单估计的性质。 式中 表示由于抽样是不放回的,由有限总体修正系数引起的方差的减少。 可用样本方差 估计,且由于它们是无偏的,从而可得到的无偏估计: 例3.1 某市进行家庭收入调查,分城镇居民及农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果是城镇年平均户收入为15180元,标准差为2972元;农村年平均收入为9856元,标准差为2546元。求全市年平均户收入的估计及其90%的置信度区间。 解:=23560,=148420,=+=171980 =23560/171980=0.137 =148420/171980=0.863 故 = 0.137×15180+0.863×9856 = 2079.66+8505.73=10585.39(元) 为求的方差估计,先计算 = 987.05+19340.72=20297.77 而由于有限总体修正系数而引起的方差减少量为: (0.137×39722+0.863×25462)/148420=52.25 故 20297.77-52.25=20245.52 =142.287 对=90%,=1.645,故全市户均年收入的90%的置信区间为: 10585.39±1.645×142.287,即[10351.33元,10819.45元。 由于城镇居民与农村居民的收入水平的差异(城镇居民户均收入高于农村居民)以及城镇与农村抽样比的不同(城镇居民的抽样比也高于农村居民的抽样比),若用样本(不分层)平均数 =(15180×300+9856×250)/550=12760 作为全市户均年收入的估计,则高出许多,这显然是不合理的。 2、对总体比例的估计 将简单随机抽样介绍的内容用于分层随机抽样对于总体具有特定特征的单元比例P或总数A的估计,即可得以下的结果。 记层比例为,,层样本比例,,其中与是第 上h层总体及样本中具有所考虑特征的单元数,则 是P的无偏估计,且 由于通常,故 而它的一个无偏估计为 而总体具有所考虑特征单元总数A的估计为: 它的方差及方差估计分别为 例3.2 为调查某个高血压高发病地区青少年与成年人高血压的患病率,对14岁以上的人分四个年龄组进行分层随机抽样,调查结果如表3.1所示。求总体高血压患病率P的估计及其标准差的估计。 表3.1 高血压病患病率调查数据 年龄组 层权 层样本量 14~25岁 0.281 400 0.083 0.917 26~40岁 0.322 650 0.174 0.826 41~60岁 0.213 600 0.310 0.690 61岁以上 0.184 350 0.464 0.536 解:根据分层随机抽样公式,P的估计量为: = 0.281×0.083+0.322×0.174+ 0.213×0.310+0.184×0.464 = 0.2308 = 23.08% 为求的方差估计,取,,则的近似公式为: 根据表3.1的数据可求得 =(0.281)2×0.083×0.917/400+(0.322)2×0.174×0.826/650+(0.213)2 ×0.310×0.690/600+(0.184)2×0.464×0.536/350=0.00007818 =0.00884=0.884% 三、各层样本量的分配 在分层抽样中,当给定总的样本量n,如何确定各层的样本量,对估计时的精度会有不同的影响。分层抽样各层样本量的分配通常有如下几种。 等额样本 等额样本即每一层取样本量为。 这种情况主要是为管理的方便,比如一个地区为一层,可保证各地区工作量的基本一致。在费用及时间上能够达到均衡。 2、按比例分配 按比例分配即样本量按总体中各层个体单元的数量所占的比例进行分配,当关于各层的个体单元数量已知,而其 他信息很少时,常采用这种分配方案。此种分配常常可以获得精度很好的估计,且这种样本所谓自加权的,可以使数据的分析处理大为简化。在按比例分配的分层抽样中,按简单随机抽样简单估值时, 各层的抽样比,估计量 各样本值在估计量中有相同的系数,是全部样本值的简单平均,具有这种性质的样本称为自加权样本。 3、奈曼(Neyman)最优分配 奈曼最优分配是考虑的分配使 达到最小。 在分层抽样中,固定,使 达到最小的样本量分配为 ,i=1,…,k. 要想精确计算出理想之样本量ni,必须知道Si(或知道Si之间的比即可),i=1,…,K,实际上大多数工作中Si的值是不知道的,这就与简单随机抽样中确定样本量情形相仿,需用预查法或类推法等获得Si的近似比例,按近似的比例来分配样本量。 4、考虑费用的最佳分配 分层抽样的费用常可考虑为 为调查的基本费用,(i=1,…,K)最小,或者使为固定值而使费用C最小的样本量分配有 , 样本总量 , 例3.3 为了了解分层抽样对提高估计精度的益处,以某地区2001年企业出口数据中截取的904个企业作为总体,来说明分层抽样及样本分配的一些情况,指标是2001年度企业出口金额Y,这904个企业的最大出口值为5000万(单位为美元,下同),最小值为50万,平均值为=608.09万,全部904个企业的总方差为S2=46666.13,现将全部904个企业按Y值的大小分为五个层。 第一层:2600万≤Y≤5000万,40个企业,层内平均值为=3503.40万,层内方差为=356554.26。 第二层:1400万≤Y<2600万,74个企业,层内平均值为=1895.78万,层内方差为=119535.60。 第三层:700万≤Y<1400万,115个企业,层内平均值为=1036.38万,层内方差为=34141.69。 第四层:250万≤Y<700万,226个企业,层内平均值为=419.31万,层内方差为=16565.56。 第五层:50万≤Y<250万,449个企业,层内平均值为=123.26万,层内方差为=3110.05。 从这一总体中抽取样本总量n=120的样本,看一看在(1)简单随机抽样;(2)分层按比例分配样本量层内简单随机抽样;(3)分层按奈曼最优分配样本量层内简单随机抽样等三种情况下,估计总体平均时,各估计量的均方偏差。 (1)简单随机抽样,以120个样本单元的样本均值估总体平均,其均方偏差为 = 337.26 (2)分层按比例分配样本量,各层的样本量分别为 ≈5 ≈10 ≈15 ≈30 ≈60 调查后以各层样本单元的样本均值的加权平均估总体平均,其均方偏差为 =264.48 (3)分层按奈曼方法分配样本量,各层的样本量分别为 ≈23 ≈25 ≈20 ≈28 ≈24 调查后同样以各层样本单元的样本均值的加权平均估总体平均,其均方偏差为 = 119.59 从以上假想的各种抽样可以看出,若以指标值的大小归并为若干层,一般会使抽样有更高的效率,特别当各层样本量分配适当时会获得很大的效益,可得精度更高的估计。 第四节 不等概率抽样 一、什么是不等概率抽样 在概率抽样中,简单随机抽样的一个基本特点是总体中的每一个单元的入样概率都相等,因此它是一种等概率抽样。由于分层随机抽样中每一层内的抽样也是按照简单随机抽样进行的,因此层内的抽样仍是等概率的。等概率抽样的基本出发点将总体(或层)中的每一个单元看成是平等的,不“偏向”也不“疏远”某些特定的单元。如果总体单元的差异不是很大,这种处理方式既是简单的,也是合理的。但是如果总体单元相差较大,也即总体方差大的情况,等概率抽样的效果就不一定好。例如为了估计一个城市的商业销售总额,对各商业网点进行调查。由于商业网点的规模差异较大,个别超大型商场年销售额可以超过亿元,甚至达到千亿元,为数较多的大中型商场与商店年销售额在几十万到几千万之间,至于数量更多的小型商店与摊位的年销售额每个仅数万元,在这种情况下,将大型、超大型的商场与一般中小市场或商店平等对等显然是不合理的。这类问题通常有两种处理方法:一种方法是将商场或商店按其类型分成若干层,进行分层抽样;另一种方法是将总体中每个单元的入样概率与其规模大小联系起来,使得大单元被抽到的概率大,小单元被抽到的概率小,这种抽样方法就是不等概率抽样。 不等概率抽样就是将总体按一种准确的标准划分出容量不等的具有相同标志的单元在总体中不同比率分配的样本量进行的抽样。 不等概率抽样的优点在于能够大大提高抽样精度,减少抽样误差,但使用不等概率抽样方法必须具有能够说明单元规模大小的辅助变量,以此来确定各个单元的入样概率或包含概率。不等概率广泛应用于总体单元的规模差异很大的情况,特别是群规模不等的整群抽样和初级单元大小相差较大的多阶段抽样。 不等概率抽样分为放回的不等概率抽样(PPS抽样)和不放回的不等概率抽样(πPS抽样)两种情形。 二、放回的不等概率抽样(PPS抽样) 1、多项抽样与PPS抽样 多项抽样 设, ,…,是一组概率,, 按这组概率对总体中的N个单元进行放回抽样,每次抽到第i个单元的概率为Zi ,独立地进行这样的抽样n次,则称这种不等概率抽样为多项抽样(multinomialsampling)。 PPS抽样 在多项抽样中,如果是放回抽样,且每个单元入样概率与其大小或规模严格成比例,即当n 固定时,记 其中,Mi是第i个单元的大小或规模的度量;是总体中所有单元的“大小”之和,此种情形的多项抽样称为PPS(sampling with probability proportional size),则这时的多项抽样由于每个单元在每次抽样中的入样概率与单元的大小成比例,故PPS抽样就是放回的与规模大小成比例的概率抽样。 放回不等概率抽样的每次抽样过程都是从同一个总体独立进行的,因此放回的不等概率抽样无论是实施过程还是推算过程都比不放回的抽样简单。由于抽样是放回的,所以某个单元可能在样本中出现多次,对这个单元的调查只进行一次,但在计算时需要按照抽中的次数进行计算。 多项抽样的实施方法 多项抽样是最简单的不等概率抽样,其实施方法有两种,即代码法和拉希里(Lahili)法。 1)代码法 代码法又称为汉森—赫维茨(Hansen—Hurwitz)法,它适合于N不太大的情形。在多项抽样中,对于给定的一组概率Z1 Z2 ,…,ZN,总可以找到一个整数M0,使得每个Mi(i=1,2,…,N)都乘以一个相同的常数使其成为整数。然后赋予第i个单元Mi个代码,具体的实施方法列在下表4.1中。 表4.1 PPS抽样中各总体单元的代码数 单元i 单元大小Mi 代码数 1 M1 1,2,…,M1 2 M2 M1+1,M1+2,…,M1+ M2 ﹒ ﹒ ﹒ ﹒ ﹒ ﹒ ﹒ ﹒ ﹒ N MN ,,…, 每次抽样都需要在[1,M0]之间产生一个随机整数,设为m,如果代码m落在了第j个单元所包含的代码数里,则第j个单元入样。如此进行n次抽取,就构成了PPS抽样的样本,当然在这n 个样本里可能会有某个单元被多次抽中。 【例4.1】总体含有N=10个单元,每个单元的规模Mi及相应的代码数列在下表4.2中,现在要利用代码法从中抽选出n=4个单元。(采用PPS抽样) 表4.2利用代码法进行PPS抽样距离 i Mi Mi×10 累计Mi×10 代码 目标变量 1 3.84 384 384 1~384 1250 2 0.68 68 452 385~452 190 3 4.63 463 915 453~915 1426 4 0.49 49 964 916~964 124 5 7.18 718 1682 965~1682 2798 6 1.28 128 1811 1683~1811 417 7 7.01 701 2511 1812~2511 1987 8 7.42 742 3254 2512~3254 2611 9 8.80 880 4134 3255~4134 3520 10 9.47 947 5081 4135~5081 4289 ∑ M0=50.81 5081 — — 18612 依次在[1,5081]中产生4个随机数(这个在计算机上容易实现),假设这四个数分别为472,1501,3341和4009,则这四个入样单元分别为第3号一次,第5号一次,第9号两次。由于单元愈大,被赋予的代码数就愈多,因此每个单元入样的概率与其大小Mi成比例。 2)拉希里(Lahili)法 代码法适用于N不太大的情形,当N很大时,M0也会很大,因此给代码法的实施带来困难。为此,拉希里提出了另外一种不等概抽样方法,其具体实施如下:令,即为诸多中最大的一个数。每次抽样需要分别产生两个随机数,一个随机数i产生于[1,N]中,另一个随机数m产生于[1,]中。如果≥m,则第i个单元被抽中;如果<m,则重新抽取一组(i,m)。这种方法同样能够保证第 i个单元被抽中的可能性与的大小成正比,此时。 【例4.2】依然采用例4.1中的数据,采用拉希里法抽取n=4个单元。 解:=947,N=10,在[1,10]和[1,947]中产生随机数(i, m),依次如下, 第一次:(4,325),M4=49< m=325,重抽; 第二次:(3,176),M3=463 m=176,第3号单元被抽中; 第三次:(5,716),M5=718 m=716,第5号单元被抽中; 第四次:(9,120),M9=880 m=120,第9号单元被抽中; 第五次:(5,60),M5=718 m=60,第5号单元再次被抽中。 因此,四个入单元分别为第3号一次,第5号两次,第9号一次。 3、估计量 在不等概率抽样中,由于各个单元的地位有轻重之分,因此每个样本单元的观测, ,…,就不再是同等地位的了,进而对总体参数的估计也与等概率抽样有所不同。汉森—赫维茨对总体总量Y给出了如下的估计: 对于PPS抽样,有 汉森—赫维茨估计量具有下面的性质:若所有的Z i>0, i=1,2,…,N,则: 1、 2、 3、若n>1,则 是的无偏估计。 【例4.3】依然采用例4.1中的数据,设采用与规模成比例的PPS抽样所抽到的4个样本单元为第3号一次,第5号一次,第9号两次,对应的数据如下(表4.3)。 表4.3 抽中的4个样本单元数据 i 原始编号 目标变量 1 3 4.63 1426 2 5 7.18 2798 3 9 8.80 3520 4 9 8.80 3520 根据表4.3中给出的调查数据来估计目标变量的总体总量,并给出95%置信度下估计的相对误差。如果要求在相同条件下相对误差达到10%,所需的样本量应该是多少? 解:M0=50.81,N=10,n=4 的方差及标准差的估计: ≈215.138×5954.72 ≈1281086.5078 95% 置信度下估计的相对误差: 如果要求在相同条件下相对误差达到10%,所需的样本量为: 。(注:向上取整才能保证精度达到要求) 三、不放回的不等概率抽样(πPS抽样) 放回的不等概率抽样,其优点在于实施简单,参数估计和精度计算也很容易,但该抽样方法一个明显缺点是样本中可能出现重复的样本单元,这样就使样本的代表性大打折扣,从而降低了抽样效率。增大了抽样误差。因此不放回不等概率抽样在实际工作中应用更加广泛。 1、包含概率与πPS抽样 在不放回不等概率抽样中,总体每个单元被包含到样本的概率也就是入样概率=以及任意两个单元同时包含到样本的概率统称为包含概率。 对于固定的n,包含概率与满足如下性质: (1) (2) (3) πPS抽样 在多项抽样中,如果是不放回抽样,且每个单元的包含概率与其大小或规模严格成比例,记,有 将此种情形的多项抽样简称为严格πPS抽样。 严格的πPS抽样实施起来非常复杂,同时由于很难求得,估计量的方差计算相当困难。事实上,严格的πPS抽样只有当n=2时才有一些简单的方法适用,当n2时,实施起来相当复杂,因此实际工作中为了避开这个难题,有时会先分层再在每层中进行严格的n=2的πPS抽样。 2、霍维茨-汤普森估计量 对于不放回的不等概率抽样,霍维茨(Horvitz)和汤普森(Thompson)提出总体总和Y的如下估计量: 可以看出,霍维茨—汤普森估计量和汉森—赫维茨估计量十分相似。根据πPS抽样的定义,由于,所以πPS抽样与PPS抽样的在形式上是完全相同的。但中的可以重复对应同一个样本单元,而中的则一定对应着不同的样本单元。 霍维茨—汤普森估计量具有如下性质: (1)若πi>0,i=1,2,…,N,则; (2)若πi>0,i=1,2,…,N,则为 若n固定,则进一步有: (3)若πi>0,πij>0,(i,j=1,2,…,N;i≠j),则的无偏估计为: 若n固定,则有另外一个无偏估计量,即耶茨(Yates)-格伦迪(Grundy)-森(Sen)估计量: 通常情况下方差估计量不是很稳定,有时会出现负值,当n固定时,耶茨-格伦迪要比霍维茨—汤普森估计量稳定。当 n=2时,始终大于零。 【例4.4】假设有5个工厂,每个工厂的员工数已知,但年度奖金发放额未知,请从5个工厂中抽出2个来估计5个工厂的年度奖金发放总额。 表4.4 5个工厂的相关数据 i 员工数() 年度奖金发放额(Y i) 包含概率(πi) 1 145 17539 0.481 2 69 8260 0.229 3 132 16023 0.438 4 97 11731 0.322 5 160 21038 0.531 ∑ 603 74591 — 注:表4.4中的包含概率是按照公式求得的。 利用不放回的不等概抽样从5个工厂中抽取2个,共有10种可能的样本。这10个样本所对应的霍维茨—汤普森估计量以及简单随机抽样的简单估计量如下: 表4.5 霍维茨—汤普森估计量以及简单估计量 样本 1,2 72561.6 64497.5 1,3 73067.0 83905.0 1,4 72931.9 73175.0 1,5 76112.5 96442.5 2,3 72690.6 60707.5 2,4 72555.5 49977.5 2,5 75736.1 73245.0 3,4 73060.8 69385.0 3,5 76241.5 92652.5 4,5 76106.3 81922.5 从表4.5的计算结果可以看出,虽然和在理论上都是总体总量Y的无偏估计,但对于本例说,要明显地好于,因为前者比后者更加集中于线。说明此时不放回不等概抽样的霍维茨—汤普森估计量比简单随机抽样的简单估计量更加精确。 3、n=2时的严格πPS抽样 由于πPS抽样的霍维茨—汤普森估计量具有简单的形式,因此实际应用中πPS抽样的难易程度就取决于具体的实施方法以及包含概率πij的计算。事实上,一些实际抽样调查时可以转化成n=2的问题,例如先对总体分层再在每层中进行严格的n=2的πPS抽样。 1)布鲁尔(Brewer)方法 布鲁尔方法使用的前提条件是:对于总体中的每一个单元,都必须满足,也就是说,总体(层)中最大的单元必须小于全部单元大小总和的1/2,否则可以将这个“特大”单元作为必然入样的单元。 布鲁尔方法采用的是逐个抽取法。先按照与成比例的概率从N个单元中抽取第一个样本单元,将第一个被抽出的样本单元记为j,再按照与成比例的概率在剩下的N-1个单元中抽取第二样本单元。 布鲁尔方法的包含概率、总体总量的霍维茨—汤普森估计以及估计量的方差估计如下: 【例4.5】倘若例4.4的抽样是按照布鲁尔(Brewer)方法进行的,则所有可能样本对应的πij如下。 表4.6 例4.4中所有可能样本的πij 样本 1,2 72561.6 0.063 1,3 73067.0 0.139 1,4 72931.9 0.094 1,5 76112.5 0.185 2,3 72690.6 0.055 2,4 72555.5 0.036 2,5 75736.1 0.074 3,4 73060.8 0.082 3,5 76241.5 0.162 4,5 76106.3 0.110 进而可以根据表4.6中的数据计算的期望和方差: 而表4.5中给出的简单随机抽样的简单估计量的方差为187558122.75。 可见,比要精确得多。 2)德宾(Durbin)方法 德宾方法同样要求总体中的每一个单元都必须满足,所采用的方法依然是逐个抽取法。首先按照与成比例的概率从总体中抽取第一个样本单元,将其记为i;然后按照与成比例的概率从剩下的N-1个单元中抽取第二个样本单元。 可以证明德宾方法中的πi、πij与布鲁尔方法中的πi、πij完全一样,说明这两种不放回的不等概率抽样方法事实上是等价的。 第五节 多阶抽样 一、什么是多阶抽样 1、多阶抽样又称多级抽样,就是将调查分成两个或两个以上的阶段进行抽样。第一阶段先将总体按照一定的规范分成若干抽样单元,称之为一级抽样单元(或称初级抽样单元),再把抽中的一级抽样单元分成若干更小的二级抽样单元,从抽中的二级抽样单元再分抽样单元等等,这样就形成一个多阶段抽样过程。 2、二阶段抽样设总体由N个初级单元组成,每个初级单元又由若干二级(次级)单元组成,若在总体中按一定方法抽取n个初级单元,对每个被抽中的初级单元再抽取若干二级单元进行调查,则这种抽样称为二阶抽样。在二阶抽样中,全部抽样是分两步实施的:第一步是从总体中抽初级单元,称为第一阶抽样;第二步是从每个被抽中的初级单元中抽二级单元,称为第二阶抽样。 二阶及多阶抽样应用范围较广泛。它既保持了一阶整群抽样样本单元相对集中的特点。因此与简单随机抽样相比,实施方便,每个基本单元的调查费用也低;另一方面,多阶段抽样,不仅对初级单元进行了抽样,而且对每个被抽中的初级单元实施了再抽样,能够充分发挥抽样的效率,节省了人力和物力。而且,由于多阶抽样是分阶段实施的,因此抽样框可以分级准备:如二阶抽样中,在第一阶抽样中仅需准备总体中关于初级单元的抽样框,在第二阶抽样中仅需对被抽中的单元准备其中关于二级单元的抽样框,使得构造抽样框相对容易些。但由于每一阶抽样中都会带来误差,抽样的阶数越多,抽样误差也会越大,因此划分阶段不易过多。 在社会经济调查中,多阶抽样常用于抽样单元为各级行政单位的情况。如在一项全国或全省性调查中,往往将省、市、县、街道(乡、镇)、居(村)民委员会、居(村)民小组及住户作为各级抽样单元,在此情形,采用多阶抽样显然十分方便。当然抽样单元的分级并不一定与单元的实际(行政)级别吻合。多阶抽样的另一个重要的应用是对于散料的抽样。所谓散料是指连续松散的、不易区分个体的材料,例如矿石、煤、水泥、化肥与粮食等等。对于一批散料,如储藏在一个仓库且已经分装在麻袋的小麦,为估计其农药残留量,显然只能进行抽样测试。先从仓库中抽取若干麻袋,再从每个抽中的麻袋中的不同部位抽取一定数量的小麦样品进行测试。这里分装即是一级(抽样)单元,份样即是二级(抽样)单元。 二阶段抽样方法较为常用,更多阶段的抽样估计方法与二阶抽样基本相同,可以类推。故此只介绍二阶抽样。 二、初级单元大小相等时的二阶抽样 1、符号 记为总体第i个初单元中第j个次级单元的指标值,i=1,2,…,N;j=1,2,…,M;为样本中第i个初级单元中第j个次级单元的指标值,i=1,2,…,n;j=1,2,…,m。 ,分别是第一阶抽样与第二阶抽样的抽样比; , 分别是总体和样本中第i个初级单元的指标和; , 分别是总体和样本中第i个初级单元指标按次级单元的平均数; , 分别是总体和样本按次级单元的均值(平均数); , 分别是总体和样本初级单元间的方差; , 分别是总体和样本中同一初单元中次级单元间的方差,也即初级单元内的方差。若令, 2、总体均值的估计量 如果二阶抽样中的每一阶抽样都是简单随机的,且对每个初级单元,第二阶抽样是相互独立的,则样本按次级单元的均值 总体均值 估计量的方差由两个分量组成:其中源由第一阶抽样的第一项主要取决于第一阶抽样的样本量n与初级单元间的方差;源由第二阶抽样的第二项主要取决于第二阶抽样的总样本量 mn与初级单元内的方差。在通常的情况下,第一项占总方差的绝大部分,因此在固定次级单元样本量mn的条件下,n愈大(m愈小),则方差就愈小。 为构造的无偏估计,需找到与的无偏估计。从直观上说,这应该与样本方差与有关。对于有 是的无偏估计。 不是的无偏估计。的一个无偏估计为(由于是的无偏估计): 可得的一无偏估计: 例5.1 为分析某城市居民小区居民食品消费量,用简单随机抽样在全部510个楼层抽取n=24个楼层,对每个抽中的楼层再用简单随机抽样抽取m=4户进行调查。总的样本量为96户。试估计该居民小区人均食品消费的户平均值。 表5.1 用二阶抽样抽取24个楼层96户居民人均月食品消费额资料 单位:元 i i 1 240 162 185 197 196.00 1071.33 13 190 162 175 202 182.25 304.25 2 192 148 186 169 173.75 389.58 14 185 201 178 238 200.50 717.67 3 168 170 144 167 162.25 149.58 15 251 230 1972 221 224.75 500.25 4 187 232 205 210 208.50 343.00 16 193 208 214 186 200.75 168.25 5 210 308 198 183 224.75 3202.25 17 238 200 195 210 210.75 368.92 6 256 280 334 216 271.50 2433.00 18 312 258 242 225 259.25 1418.25 7 192 165 224 241 205.50 1141.67 19 177 230 196 234 209.25 752.92 8 187 212 253 189 210.25 940.92 20 286 247 209 224 241.50 1124.33 9 208 307 258 210 245.75 2201.58 21 228 254 205 218 226.25 430.92 10 232 182 212 169 198.75 815.58 22 287 208 197 248 235.00 1682.00 11 294 309 244 286 283.25 775.58 23 275 240 300 262 269.25 628.92 12 228 182 312 232 238.50 2915.67 24 184 215 199 237 208.75 514.92 解:在表 5.1中列出了每个楼层样本平均数及方差。于是的估计为: =220.2708(元) ==,,因而 = 37.7337 + 0.2549 = 37.9886 (元) 于是的置信度为95%的置信限为: 220.2708±1.96×6.1635 从而置信区间为(208.19元,232.35元)。 3、总体比例的估计 当二阶抽样的目的是估计总体中具有某种特定特征的次级单元对总体中所有次级单元数的比例P时,它的一个无偏估计是: 其中是第i个样本初级单元中具有所考虑特征的次级单元数。 总体方差: 其中是总体中第i个初级单元中具有所考虑特征的次级单元的比例,而。p的方差为: 而的一个无偏估计是: 其中。 例 5.2某部委对所属企事业单位就一项改革方案进行抽样调查,采用二阶抽样。先在全部N=1250个单位(平均每个单位职工人数)中按简单随机抽样抽取n=350个单位,然后对抽中的每个单位再按简单随机抽样抽取m =8个职工进行调查。样本单位中赞成此项改革方案人数为k的单位频数(k=0,1,2,…,8),及赞成比例列在表5.2中。试估计该部委全体职工赞成该项方案的比例P,给出估计量的方差估计,并估计此项二阶抽样的设计效应。 表5.2 某部委350个单位对一项改革方案的调查结果 (每个单位随机抽8人,为赞数为k的单位频数) k 0 1 2 3 4 5 6 7 8 3 4 15 34 64 131 67 24 8 0 0.125 0.25 0.375 0.5 0.625 0.75 0.875 1 解:N=1250, n=350,=0.28 ,,=0.032 = 137.0156-126.1500 = 10.8656 为估计二阶抽样的设计效应deff,按次级单元样本量nm=2800,总的抽样比,可计算简单随机抽样的方差估计为: 故 三、初级单元大小不等时的二阶抽样 1、一般说明及符号 初级单元大小不相等的二阶抽样有两种处理方法。一种是将初级单元按大小分层,使层内的初级单元大小大致相同,从而可用初级单元大小相等的方法处理。另一方法是考虑用不等概率抽样抽取初级单元或虽仍用简单随机抽样抽取初级单元但改变估计量的形式。下面介绍用放回不等概率抽样即多项抽样的方法对初级单元进行抽样。 使用的符号: 表示总体第个初级单元中第个次级单元的指标值,是总体中次级单元的总数。表示样本中第个初级单元第个次级单元的观测值,,其中分别是第一阶抽样与第二阶抽样的样本量,而分别是抽样比。 总体及样本各级总和、均值(平均数)与方差如下: 2、总体总和Y的估计 首先考虑第一阶抽样是按多项抽样抽取初级单元的情况。对每个初级单元,设定一个概率,进行次独立放回抽样,每次抽到第个初级单元的概率为。第二阶段则是在每个被抽到的初级单元中以某种形式抽取个次级单元。若某个初级单元被重复抽中,则原来在第二阶抽样抽到的这些次级单元都被放回,然后重新抽取个次级单元。 对于二阶抽样中总体总和Y的估计,一般是先对每个被抽中的初级单元,利用第二阶抽样到的样本,估计初级单元的总和,然后再利用单阶抽样的结果进一步估计Y。即先给出的一个无偏估计,再利用多项抽样中汉森一赫维茨估计量从而给出Y的估计: 其中是第个样本初级单元相应的值。 方差为: 的一个无偏估计量是: 如果第二阶抽样是简单随机的,其估计值及方差 3、估计量自加权的条件及对初级单元的PPS抽样 若一个估计量可以表达为样本观测值总和(或平均数)的常数倍,则称这种估计量(或相应的样本)是自加权的。现在我们寻求二阶抽样中当用多项抽样抽取初级单元时,估计量是自加权的条件。为简单起见,我们将第二阶抽样限制为最常见的简单随机抽样情形。 在实际应用中,最重要也是最常用的情形是第一阶抽样对初级单元进行PPS抽样,即令。若第二阶抽样是简单随机的,则此时总体总和Y的估计量简化为: 若进一步令则估计量是自加权的, 此时 是样本对次单元的平均数。从公式,可知是总体对次级单元的均值的无偏估计。的一个无偏估计分别为: 例5.3 某城市进行服装消费量抽样调查,目标量是上一年户均服装消费金额。抽样采用二阶抽样,其中第一阶有PPS抽样(按居委会所包含的户数)抽取个居委会,第二阶抽样是在每个抽中的居委会中用简单随机抽样取户。调查每个样本户上一年全家花费在服装(包括购置成衣、面料以及加工费)方面的总金额,调查结果如表5.3所示。求该市上一年户均服装消费额的估计,并求它的置信度为90%的置信区间。 解:在本例中,第一阶抽样用PPS抽样抽个居委会,第二阶抽样又是按简单随机抽样在每个被抽中的居委会抽同样数量的居民户,,因此所得的样本是自加权的。按上述公式,该市平均每户年服装消费金额的估计及其方差估计分别为: 于是 置信度为90%的置信限为 表5.3 20个居委会120户年服装消费金额调查数据 单位:元 居委会序号i 年服装消费金额 1 1210 2610 2485 1830 595 870 1600.0 2 565 1175 290 3520 930 1940 1403.3 3 1470 2650 365 2135 1785 3790 2032.5 4 1550 785 2100 1215 480 2360 1415.0 5 420 2050 1670 850 2700 450 1356.7 6 2920 1870 5780 2435 1950 2645 2933.3 7 4530 3325 920 795 4670 1830 2678.3 8 2080 785 920 2740 1805 3460 1965.0 9 2150 540 120 1940 2900 3455 1850.8 10 3560 2500 950 2305 780 895 1831.7 11 2525 330 2630 740 2250 7010 2580.8 12 590 1550 795 4900 3560 3080 2412.5 13 2065 1780 2310 4985 1830 410 2230.0 14 3870 530 0 540 1490 2375 1467.5 15 1740 1565 2940 965 2530 1495 1872.5 16 430 1810 800 995 1785 280 1016.7 17 1340 4850 2285 12500 2100 3895 4495.0 18 2640 1365 1970 940 1650 3885 2075.0 19 640 1940 2770 830 1430 1215 1470.8 20 2390 245 1960 450 1845 650 1256.7 1997.2±1.64×174.3元 相应的置信区间为(1711.3元,2283.1元)。 此例中估计量的标准差比较大,主要是因为样本量不够大。如果想使估计量的标准差降至50元,即是原来的1/3.3486,则样本量应是原来的(3.486)2 =12.15倍。若保持每个居委会中抽取6户不变,则应抽居委会数约为243个。 第六节 整群抽样与系统抽样 一、什么是整群抽样 1、整群抽样(又称集团抽样)就是在多阶抽样中,当某一级抽样单元被抽中,该单元包含许多下级单元时,在被抽中的单元内不再进行下一级的抽样,而是对该单元内的下一级单元进行普查。 整群抽样是实际抽样调查中常用的一种抽样方法,一般来说,如果在群间差异性不大或者不适宜单个地抽选调查样本的情况下,可采用这种方式。整群抽样的特点主要表现在以下二方面:一是无需明确的抽样框,例如,抽到一个居民小区或工厂生产班组为样本单元时,实施整群抽样可以实地对一户户居民或班组成员逐个进行调查,无需调查前进行名录登记;二是由于被调查的样本单元相对集中,便于调查操作,节省时间和差旅费等等。例如,全国成年人尺寸调查,经过多级抽样后,抽取到某地区某工厂的一个班组作为样本单元,由于测量需要一套专业仪器,搬运颇为不易,且如果人分散于各部门,组织人员测量也较麻烦,因而对一个班组的全体工人进行整群调查。 整群抽样由于抽取的样本单元比较集中,在一个群内各单元之间的差异比较小,而不同群之间的差别往往比较大,因此抽样误差常大于简单随机抽样。为了达到精确度的要求,需要多抽一些群。和简单随机抽样一样,群抽得愈多,精确度愈高,然而群抽得太多又不符合整群抽样节省人力、物力的目的,因此需要研究确定一些数量界限,分析在什么情况下应当整群抽样比较有利,群的规模以多大为好等等。 采用整群抽样时,当群的大小(群内包含小单元的个数)接近时,常采用简单随机抽样抽取群;当群的大小差异比较大时,为提高效率则更多采用不等概率抽样(按与群的大小成比例的概率抽样)方法。 2、群的划分原则 整群抽样中的群大致可分为两类,一类是根据行政、地域以及自然形成的群体,如学校(或班级)== …= = )的情形,此时对群的抽取均采用简单随机抽样。 1、符号说明 记为总体中第i群中第j个次级或基本单元的变量值(i=1,2, …N,j=1,2, …M);为样本第i群中第j个次级或基本单元的变量值(i=1,2, …n,j=1,2, …M) 。而f=n/N是整群抽样比。 分别是总体和样本中第i群(按次级或基本单元考虑的)的变量值和, 简称为总体群和, 简称为样本群和。 分别为第i群(按次级或基本单元考虑的)总体均值和样本均值。 分别是总体和样本的“群和平均”。 , 分别是(按次级或基本单元考虑的)总体均值和样本均值。 , 分别是(按次级或基本单元考虑的)的总体总方差和样本总方差。 = = 分别是(按次级或基本单元考虑的)的总体群间方差和样本群间方差。 分别是(按次级或基本单元考虑的)的总体群内方差和样本群内方差。 2、估计量 在对总体均值、总体总值、总体比例和总体比率四个方面的总体特征估计上,其核心估计量是样本均值。 总体均值的简单估计量为 总体总值Y的简单估计量为 的无偏估计是: 例6.1在一次针对某城市大学生月生活费支出的调查中,以小组为群进行整数抽样。每个小组都有M=8个大学生。采用简单随机抽样在全部N=510个小组中抽样n=12个小组。全部96个样本大学生人均月消费额及按小组计算的平均数与标准差如表6.1所示。试估计该城市大学生人均月生活费支出,并给其95%的置信区间。 表6.1 12个小组96位大学生人均月生活费支出资料(单位:元) i 1 2 3 4 5 6 7 8 9 10 11 12 686 1357 863 1685 1555 699 573 794 1521 1006 17

  ·某某超市配送中心建设项目可行性研究报告(116页优秀甲级资质可研报告)--15917.doc

  ·2016年经济师《运输经济(公路)专业知识与实务(中级)》过关必做习题集(含历年真题).doc

  ·【考前天“黄金”资料】x年高考历史考前天三轮专题提分必练绝密板块综合检测(二(大纲专用).doc

网友评论