有关分层抽样调查方法的讨论和研究

有关分层抽样调查方法的讨论和研究有关分层抽样调查方法的讨论和研究本科学生毕业论文有关分层抽样调查方法的讨论和研究系部名称: 数学系专业班级:信息与计算科学 B - 班学生姓名: 指导教师: 职称: 二? 年六月 The Graduation Thesis for Bachelor's Degree A Study on The Stratified Sampling Method Candidate: Specialty: Class: Supervisor: Heilongjiang Institute of...

有关分层抽样调查方法的讨论和研究本科学生毕业论文有关分层抽样调查方法的讨论和研究系部名称: 数学系专业班级:信息与计算科学 B - 班学生姓名: 指导教师: 职称: 二? 年六月 The Graduation Thesis for Bachelor's Degree A Study on The Stratified Sampling Method Candidate: Specialty: Class: Supervisor: Heilongjiang Institute of Technology 20 -06?Harbin 本科生毕业论文摘要抽样调查是了解自然和社会收集资料的一种科学方法和手段，而分层抽样是抽样调查中的一种重要的抽样形式。在各种情形下，尤其是在层内同质层间异质时，分层在实际中被广泛的运用。抽样可以大大的提高抽样调查的效率和效果，本文在抽样调查的一般表述下，探讨了分层抽样中三种样本容量分配方法(1)满 2)按比例分配样本容量(3)Neyman分配。在文中足各层不同精度要求的分配法( 的下一部分分别研究了分层抽样中的简单估计的简单估计法(SSE)、部分估计法、比率估计法(SRE)。并且对简单估计法和比率估计法在效果上作了比较，可以看出比率估计法是优于简单估计法。因分层抽样在实际中存在一些特殊的问题，在本文中主要讨论了在运用中可能出现的偏差对误差的影响。并且将分层抽样运用在审计中，采用分层抽样方法，可以在一定风险下，确定样本容量，达到审计目标，对被审计项目在花费最少的成本下做出最合理的评价。关键词:分层抽样;估计量;抽样误差;样本容量;最优分配 I 本科生毕业论文 ABSTRACT Sample survey is a scientific method and means to understand the nature and collect societal information.And stratified sampling is one of the most significant forms of sample survey. Stratified sampling can availably improve the efficiency and effect of sample survey in a variety of situations,specially when there are heterogeneities between homogeneities in one strata.Therefore,the stratified sampling is widely used in practice. Based on the general statements of sample survey,this paper disgusses three methods of sample size allocation in stratified sampling.(1)Method which can meet the requirements of different precision of all levels.(2)Proportionate allocation of sample size.(3)Neyman allocation.The next part of this paper respectively studies some simple estimation (SSE),some estimation,some ratio estimation(SRE) in stratified sampling.And some simple estimation and some ratio estimation is be compared in effect,one can see that some ratio estimation is superior to some simple estimation.Because of some special problems stratified sampling has in practice,this paper mainly disgusses influences potential deviations have on errors when tratified sampling is used,and applies stratified sampling to audit.By the use of stratified sampling,we can ascertain sample size and achieve aim of audit under certain risks,and make the most reasonable estimate of the item audited under the least cost. Key words:Stratified sampling;Estimation;Sample error;Sample siz;Optimum allocation II 本科生毕业论文目录摘要 .................................................................... I Abstract ................................................................II 第1章绪论 ........................................................... 1 第2章抽样调查的基本知识及分层抽样的概述 ........................ 2 2.1 抽样调查的提法和描述 ............................................ 2 2.2 分层抽样的概述 .................................................. 4 2.2.1概念与特点 ................................................. 4 2.2.2分层与估计法 ............................................... 5 2.3本章小结 ......................................................... 6 第3章分层抽样中样本容量的确定与分配 ............................. 7 3.1样本容量的确定 ................................................... 7 3.1.1不同精度及按比例分配 ....................................... 7 3.1.2Neyman分配 ................................................. 7 3.2最优决策分配样本容量 ............................................. 9 3.3本章小结 ........................................................ 14第4章分层抽样的几种方法及比较 ................................... 15 4.1分层抽样的简单估计法(SSE法) .................................. 15 4.1.1简单估计法 ................................................ 15 4.1.2抽样比超过100%时的修正 ................................... 18 4.1.3抽样在估计精度的收益 ...................................... 19 4.2分层抽样的部分估计法 ............................................ 21 4.3分层抽样的比率估计法(SRE法) .................................. 23 4.3.1比率估计法 ................................................ 23 4.3.2 SRE法与SSE法的比较 ..................................... 24 4.3.3 比率估计法的分配 ......................................... 25 4.4本章小结 ........................................................ 27 本科生毕业论文第5章实际应用中的分层抽样 ........................................ 28 5.1分层抽样方法在实际应用中存在的一些问题 .......................... 28 5.1.1有关分层抽样框效率的问题 .................................. 28 5.1.2调查项目具有敏感性 ........................................ 32 5.2分层抽样技术在应收账款审计中的应用 .............................. 35 5.3本章小结 ........................................................ 39 结论 ................................................................... 40 参考文献 .............................................................. 42 致谢 ................................................................... 44 附录 ................................................................... 45 本科生毕业论文第1章绪论现代社会从某种意义上讲，是一个信息社会。由于现代科学技术的高速发展，特别是以计算机为核心的信息处理技术的推广，使得社会各个领域的知识和技术更新速度加快，对各种信息需求量加大。信息资料的收集、开发和应用，对经济建设，对社会的发展和进步，起着越来越大的作用。信息本身就是一种财富，这一点已被越来越多的人所认识。抽样调查的理论基础是概率论与数理统计，它是根据调查的目的、调查费用、调查精度和信度设计的一种最能代表总体的抽样方式。设计一套估计、预测、数据处理和统计分析的方法，并给出估计和预测的精度和可靠性。由于抽样调查是在概率论与数理统计的理论指导下进行的，所以已经不再是一种具体的操作过程，而是有理论，有方法，比较系统完善的科学技术。他广泛的被应用到各种领域，并越来越多地被人们接受。工农业产品质量检验和控制，需要抽样技术;科学试验中如何安排各因子的试验设计也是抽样技术的应用;医学临床试验要用抽样技术安排试验;人口、资源、市场的预测和研究需要抽样技术;各种社会现象、经济现象的调查和研究需要抽样技术;各种信息资料的收集和整理需要抽样技术,等等。而对于不同的调查项目，应采用不同的抽样方法。分层抽样是抽样方法中经常用的一种抽样调查方法。分层抽样适用于总体内部有不同类型单位集团的总体。有时为了实施和管理上的方便，也经常采用分层抽样。分层抽样可以比较大幅度的提高调查精度。本文分别针对于以下四种情形:1)各层不同精度要求的分配法，2)按比率分配样本容量，3)Neyman 分配，4)最优决策分配样本容量。给出了求解样本容量和最小均误差的方法，从而确定了各种情形的分层抽样效率。在此基础上总结分析了各种分层抽样方法。其中包括分层抽样简单估计法(SSE)、分层抽样部分估计法、分层抽样比率估计法(SRE)。理论与实际应用是有差别的，为了使分层抽样方法能在实际中灵活的应用，本文就分层抽样在实际应用中的问题给予了探讨。在文中最后一章研究分析了分层抽样在审计的实际中测试的运用，加深了对分层抽样方法的理解。 1 本科生毕业论文第2章抽样调查的基本知识及分层抽样的概述 2.1 抽样调查的提法和描述总体是指研究对象的全体，通常有两种理解:(1)研究对象中基本单位的集合构成的总体，即实在的总体(2)基本单位标志值的集合构成的总体，即数字总体，在本文中两种概念均要用到。在抽样调查中，总体又分为目的总体和被抽样总体。目的总体是指所研究对象的全体，而被抽样总体是指抽样单位构成的总体。例如:有N个人构成的被抽样总体。 Ω=W,W,W...WWi,代表第个人,,N123Ni 年龄作为第i个人的年龄标志，构成为年龄的一维数字总体。,,YYYY,,...,,NN123 ZZZZ对于每个人要了解年龄、性别、身高、体重，所以第i个人对应四个标志2413 11NNii，，，，，，，，，，，，W值，即与对应，构成总体为四,,ZZZZ,...,,...,,...,YZZ,(,...,)，，，，i,14,N1414i 维数字总体。样本是指抽样时入样的那部分个体构成的集合。设总体为，,,YYYY,,,...,,,NN123 i从中抽取n个个体构成集合，其中是第k个入样的号码，即入样号。YYY,,...,,,kiin1 Y为方便计，将记为 ,为一个入样号，样本中的个数称为ykn,1,...,yyy,,...,，，，，ikk1n 样本容量。抽样调查研究的对象主要是一个有限总体。对于一维总体我们主要研究是总体标志植的总量和平均数，这也是抽样调查主要研究的主要问题。 Y设是一个一维总体，在没有特别声明时，我们总认为每个被,,YYYY,,,...,,,iNN123 抽取得概率相同，即，于是有: PYYNiN,,,1/1,...,,,，，i 1、Y的期望值(均值) NN1EYYPYYYY,,,,() (2.1) ,,iiiN,,11ii 2 本科生毕业论文 2、Y的方差 N22()()YYPYY,,EYY(),DY== ,iii,1 N122YY,,,() = (2.2) ,iNi,1 N122SYY,,()修正方差 (2.3) ,iN,1,1i 222CSY,/()3、变异系数 (2.4) N YY,4、标志值总量 (2.5) ,ii,1 N11EYYYY,,,5、标志值均值 (2.6) ,iNNi,1 一般情况下抽样调查的目标量有以下几种 Y1、总体标志值的总量 N YY,，例如全国总人口数，一个地区粮食的总产量，某珍稀动物现存总量数等。 ,ii,1 Y2、总体标志值的平均值 N11YYY,,， ,iNN,1i 例如，职工的平均工资、平均产量等 N3、总体中具有某种属性的个体的总个数;总体中具有某种属性的个 1 N1体占总体的比例P, N ,1具有某种属性定义 Y,,i0不具有某种属性, N1NYY,,则: ，例如人口死亡率，育龄妇女的生育率等 PYY,,,1iNi,1 估计量的评价: [1]1、无偏估计量: 3 本科生毕业论文若是的一个估计量，且=，则称是的一个无偏估计量。,,,E,,,，， 2、若是的一个估计量，且，则称是的一个渐进无偏估计,limE,,,,,,，，n,, 量。 3、若对于任何均成立，则称是的一个相合估计量,lim0p,,,,,,,,,0,,n,, 或一致估计量。 ,,,,4、若、是的无偏估计量，且则称比更为有效。 ,D,,,，，，，221112 [2]评价估计量好坏的两个原则: 1、如果随着样本容量的增大，偏差B与均方差同时变小，而且偏差比标准误差 lim/0BMSE,,变小的更快，即则估计量是可用的。，，，，n,, 2、比较两种估计量的好坏，以它们的均方误差大小为准，均方误差小者为佳。当确定了抽样方式及估计量的公式以后，样本容量的确定一般根据如下两个原则: 1、在满足精度和信度的条件下，使样本量最小求出n来。 2、在费用允许的范围内，考虑适当的信度下，使均方误差最小，求出n来。 2.2 分层抽样的概述 2.2.1概念与特点 1、概念:分层抽样，又称类型抽样或分类抽样。其组织形式是先将总体单位按一定的标志加以分层，而后在各层按随机原则抽取若干样本单位入样，由各层抽取的样本单位构成总的样本。设总体有N个单位，即 ,,YYYY,,...,,NN123 K NN,,N按某一分层标志将其分为k层，第i层有个单位(i=1,…k)即，，,iNiii,1 ,,YYY,,...,,,NiiiNi12i n从第i(i=1,…,k)层抽取个单位，构成第i层的子样本，即yyyy,,,..., ，，iiiini12i，， KK yUyyynn,,,(,...,),,1nii，，所有子样本并成总的样本，即 ,1i,1i , 2、分层抽样的特点 (1)分层抽样从每一层中各取部分单位构成的样本有比较好的代表性，从而提高调查的准确度。 (2)分层抽样是把层看作子总体进行抽样，进行估计和计算误差，再通过加权的 4 本科生毕业论文方式构成指标的估计量及误差，从而大大地提高了调查的精确度。 (3)分层抽样的误差主要取决于层内方差，而层内方差较小，又是提高精度的一个原因。 (4)对各层的参数也进行相应地估计，是一种理想的调查方法。 (5)便于组织管理。 2.2.2分层与估计法 [3] 1、分层若调查的目标参数仅与一种资料相关，则可按与历史资料之间的密切程度或相似程度划分，若与许多方面的资料或情况有关，可按以下标准划分层次。 (1)以调查目标的核心项目的密切关系为分层标准。 (2)如果总体分布比较分散时，则以分散程度较大的项目为分层标准。 (3)定性调查项目，尽量以在总体内所占比例小的项目为分层标准。考虑上述分层标准后，分层尽量使层内单位同质，即层内方差要小，层间异质，即层间方差要大。 [4] 2、估计法 K N假定将总体分成K层，即第i(i=1,…,k)层有个单位，即 ,,,UiNNi,1i KNiNN,，， ,W,,YYY,,...,,,,iiNiiiNi12iNi,1 n从每层中各抽取若干单位构成子样本，如从第i层中抽取个单位入样，亦即i yyyy,,,...,，，iiini12i，， Ni1,子总体(层)的均值的估计值为 YY,N,iijiN,1ji ni1 (2.7) yy,,iijn,1ji 1,f22i,,S均方误差为 (2.8) yiini Nin122i其中 ,,,SYYf(),,iiji,NN1,1jii 5 本科生毕业论文 1,f222i的无偏估计量为: (2.9) ss,,iyyiini ni122其中 syy,,(),iijin,1,j1i NNKi1总体均值的无偏估计量为 YYWY,,,,,ijiiN,,,111iji K yWy, (2.10) ,stiii,1 KK1,f22222i,,,,WWS均方误差 (2.11) ,,yiyiistinii11,,i K222sWs,其无偏估计量为 ,iyyisti,1 K1,f22iWs = (2.12) ,iini1,i 2.3本章小结抽样调查是一种非全面调查，它是从全部调查研究对象中，抽选一部分单位进行调查，并据以对全部调查研究对象作出估计和推断的一种调查方法。显然，抽样调查虽然是非全面调查，但它的目的却在于取得反映总体情况的信息资料，因而，也可起到全面调查的作用。相对于全面调查，抽样调查具有节省人力物力、调查误差小、操作灵活和取得资料较快等优点，因此，被人们看作是统计调查中的重要方法之一。在经常使用的抽样方法中,分层抽样作为一种比纯随机抽样具有更优精度的抽样组织形式,已在实践中受到更广泛的重视。分层抽样的方差(误差)小,根据已有的研究 [5]成果,分层抽样的误差一般只有纯随机抽样的1/10,而且抽样效果好、工作量小、成本低的特点。分层抽样是为了在不增加样本容量的情况下提高抽样精度,或者在一定的精度要求下减少抽样数的一种方法。 6 本科生毕业论文第3章分层抽样中样本容量的确定与分配 3.1样本容量的确定 [6] 3.1.1不同精度及按比例分配 1、满足各层不同精度要求的分配法如果对每层的估计精度有不同的要求，则将每一层看作一个子总体，按照简单随 n机抽样的方法确定各层的样本容量。如 pyYd,,,,1,,,iiii n222i0,,/,nZSdn则 (3.1) iiii0,1/，nNi0 、按比例分配样本容量 2 Ni如果各层子层总体的方差相差不大时，通常按各层个数占总体个数的比例 ,WiN Ni分配样本容量，即 (3.2) ,,,,nnWniiN nniff,,,由(3.2)可知 iNNi 所以在按比例分配样本容量的条件下，估计量的均方误差可以表示为 K1,f22,,WS (3.3) ,yistini,1 K22SWS,令 (组内方差) (3.4) ,wiii,1 当要求满足pyYd,,,,1,的分层抽样方案的样本容量应为 ,,st 222,nZSd,/0,w, (3.5) n,0n,,1/，nN0, [7] 3.1.2Neyman分配 2S当各层子总体的方差差异比较大时，分配样本的容量就必须既要考虑到比例i 22SSw，又要考虑到层方差，即大的层样本容量应适当多些。 iii 7 本科生毕业论文 k2nn,Neyman分配法是在的约束下，使达到最小的样本容量的分配方法。设,,iysti,1 kk,,11,,22为拉格朗日函数。 LWSnn,,,，,,,,,iii,,nN,,11ii,,ii,, 22,l,,WS2ii,0,n,,i,,,n,i ，即 ,,k,l,,,0nn,,0,i,,,,1i,,, WSii解得: nn, (3.6) ik WS,iii,1 此时，最小的均方误差是 2kk11,,,,22 (3.7) ,WSWS,,,,iiiimin,,,,nN,,,,,,ii11 nnw,S显然，当相等时，(3,6)式变成 iii 为了确定n，我们可分以下几种情况讨论: Y1、当调查目的是估计总体均值时， 22,,(1)给定，使成立， ,,min k2()ws,iii1,n (3.8) ,k122ws,，,iiNi1, kk22SWS,SWS,令:， ,,iiwiii,1,1i ,2,Sw,n20,,,,S,则，(3.8)式改写成 (3.9) ,n,20,,,n,0,n,n01，,N, 8 本科生毕业论文 ,(2)给定d，使成立 pyYd||1,,,,,,,st ,22ZS,,wn,20,d ,22,()ZS', (3.10) n,,20d,,n,'0n,0,n01，,N, 2、当调查目的是估计总体总量时: Y 22222给定，使/成立 (1),,N,,,,,,yystst ,22NS,wn,20,, ,22,NS()',n (3.11) ,20,,'n,0,n,n0，1,N, , (2)给定d，，使成立 pyyd||1,,,,,,,st ,222,zNS,w,n20,d,222,zNS()',,n (3.12) ,20d,'n,0,n,n0，1,N, 3.2最优决策分配样本容量 2S当层内的方差差异比较大，且各层的调查费用又各不相同时，考虑到调查费用i [8]的样本容量分配方法有以下两种提法: 1、在总费用固定的条件下，使均方误差最小的样本容量的分配问题设费用函数是一线性函数 9 本科生毕业论文 k FFFn,， (3.13) ,0iii,1 FF其中F为总费用，为固定费用(准备费用)，为第i层单位样本的调查费用 0i kk1122()(),，，,WSFFnF,记:L=为拉格朗日函数 ,,iiii0nNii11,,ii 22,L,,FwS22iii,0,nFii,,,,n,,i 有 ,k,,L,,FnFF,,,0ii,0,,1i,,,,, wSii FinFF,,()解得: (3.14) i0k wSF,iiii,1 k wS,ii,1ikFi (3.15) ,,,()nnFF,0ik,1iwSF,iiii,1 wSii Finn, (3.16) ik wSF,iiii,1 若调查目的是估计Y，样本容量的分配公式仍是(3.15)、(3.16)，有时可将两式改变形式: k NS,ii,1i Fi (3.17) ,,()nFF0k NSF,iii,1i NSii Finn, (3.18) ik NSF,iiii,1 10 本科生毕业论文 222、满足，使费用最小样本容量分配: ,,,yst kk11222LFFnwS,，，,,,,(()) ,,0iiiinN,,11iiii ,,,L22,FwS,,0iii2,,n,n,,ii 即 ,,k11,L222,,(),,,wS,0,ii,,nN,,,i,1ii, k wSk,ii2,1i令,()() SwSF,FiiiF,1ii ,2S,wn,20,,,2,S'Fn 解得: (3.19) ,2,0,,'n,0n,,n01，,N, wSii Finn, (3.20) ik wSF,iiii,1 22Y 若调查目的要估计，并要求则 ,,,yst ,2S,2wnN,20,,,2,S'2FnN , (3.21) 2,0,,'n,0n,,n01，,N, wSii Finn, (3.22) ik wSF,iiii,1 举例 11 本科生毕业论文某班共有30位学生，其某科考试的成绩分别如下: 50 53 57 58 60 61 65 70 73 76 77 77 78 78 79 80 80 85 87 87 88 89 89 90 92 93 94 94 95 22 =77.23 YS,,13.69187.42 把上例中的数据按分层抽样的方法进行估计，将总体中30位学生的成绩分成三层: 第一层:50 53 57 58 60 61 62 65 70 73 2YSS=60.90 =45.29 =6.73 111 第二层:76 77 77 78 78 79 80 80 85 87 2YSS=79.70 =11.61 =3.41 222 第三层:87 88 89 89 90 92 93 94 94 95 2YSS=91.10 =7.29 =2.70 333 (1)按最优分配样本容量(Neyman分配) 要求满足PyY||3.595%,,, ,,st 3322SwS,,21.3967SwS,,4.28()S解:， =18.3184 ,,wiiii1ii,1, 2'2222nZSd,()==5.74 (1.96)(18.3184)(3.5),0 22222=6.71 nZSd,,(1.96)(21.3967)(3.5),w0 'n5.740,==4.695 n,n16.7130，01，N 1(6.73)wS311,,，,,nn52.63 134.28wS,iii,1 1(3.41)wS322,,，,,nn51.331 234.28wS,iii,1 12 本科生毕业论文 1(2.70)wS333,,，,, nn51.051334.28wS,iii,1 最小均方误差: kk11222,,,wSwS()() ,,miniiiinNii,,11 1122 = SS,,()2.9509wnN ,=1.72 min F(2)假定固定总费用F=30元，准备费用=10元，第一层每调查一个人花费40 22FFF元，第二、三层每调查一个人花费2元，即=4，==2，如果要求，求使,,2123yst nnn总费用F=10+4+2(+)最小的分层抽样方案及均方误差 112 k22SwS,,21.3967解: (层内方差) ,wiii,1 kk2SwSFwSF,,()()18.8726 ,,Fiiiiii,,11ii kk wSFwSF其中 =7.3669 =2.5618 ,,iiiiiii,1i,1 22nS,, =21.3967/4=5.3492 0w '22nS,, =18.8726/4=4.7182 0F 'n4071840 =4 n,,n15.349230，01，N 146.732，，wSF1113nn,,,,1.752 1k2.5618wSF,iiii,1 13 本科生毕业论文 143.142，，wSF2223 nn,,,,1.2512k2.5618wSF,iii,i1 n =1 3 k1,f222i,wS, =3.9029 ,yiistni1,i ,,1.9756 yst Fnnn=+4+2(+)=22元 F0112 3.3本章小结 n三种确定各层样本容量的方法在不同的条件和要求下使用，我们在分层抽样组 i n织方式运用中，应根据抽样的目的来选择合适的确定的方法，以达到抽样方差最小、i 费用最少的抽样效果。另外，在使用分层抽样这种组织方式时，还应注意对各层的要 [9]求。要求有三: (l)分层抽样时，各层之间是不重复的也就是说，总体中任一单位都属于且仅属于 N某一层，分层抽样的必要前提是，总体单位数N以及总体中的各层单位数已知。例i如对企业进行调查时，将企业划分为大、中、小型企业三个“层”，要求全部企业的总数N是已知的，而且大、中、小型企业的个数也是已知的。 (2)分层抽样要求在任何两层中抽取样本单位时都要相互独立。 (3)分层抽样时最好利用我们所要调查的标志或与之有关标志分层。这样做可以避免各层之间的重复，减少平均层内方差。例如在农产量调查中按某种作物的历史平均单产或估产时的单产分层按地理环境分层，商业零售额调查中按商业网点的规模分层等等，都可减少抽样方差，提高抽样效果。 14 本科生毕业论文第4章分层抽样的几种方法及比较 4.1分层抽样的简单估计法(SSE法) 4.1.1简单估计法 ,设总体分为k层，即: n k ,,, ，i= 1,,kNNii,1 K ,,,YYNN,....,,其中 ,,,1NiiNiii,1i Ni1各层参数如下: YY,,iijN,1ji Ni YNYY,,,iiiij,1j Ni122222CSY, ， SYY,,()iii,iijiN,1,1ji WNN,令，则: ii NKki1WY = YY,,ii,,ijNi,1,,11ij NKki YNYYY,,,,,,iij,,,111iij YY调查目标量时:或 nik,1,2,3,从各层分别随机抽个单位() i yyy,(,...) ()1iiini 样本均值，方差分别为: 15 本科生毕业论文 ni1 yy,,iijn,1ji ni122 ,,yys(),iijin,1,1ji niyNy,记， (4.1) f,iiiiNi K yWy, (4.2) ,stiii,1 1,f22i ss, yiini KK1,f22222isss,,WW (4.3) ,,yiyiistin,,11iii 22 (4.4) ,,,EyY()ystst 定理4.1:在上述假设下，有: EyY, (1) (4.5) st K1,f222i,,WS (2) (4.6) ,yiistni1,i 22 (3) (4.7) ES(),,yystst EyY,证: ii 1,f22iEyYS(),, iiini yy,...,注意到的独立性， iin1i KK,, EyEWyWEy()(),,,,stiiii,,,,11,,ii K ,,WYY ,iii,1 KK22,,,EWyWY() ,,yiiiistii,,11 16 本科生毕业论文 2K,, EWyY(),,,iii,,,i1,, K22,,WEyY() ,iiii,1 K1,f22i,WS ,iini1,i K1,f2222iEWE(s)(s),,, ,yiiyststni1,i K yNyNy,,推论: (4.8) ,ststii,1i 是Y的无偏估计量，其均方误差为: 222 ,,,Nyystst K1,f22iNS = (4.9) ,iini1,i K1,f22222iSNSNS,,的无偏估计量为: (4.10) σ,yyiiystststn,1ii [10] 分配样本容量比例分配样本容量 Ni样本容量的分配是按各层个数占总数的比例,进行分配时 WiN Ni,,,,， nnWniiN nniff,,即亦即 iNNi K1,f222iWS, σ,iiystni1,i K1,f22iWS, ,iinWi1,i 17 本科生毕业论文 K1,f2WS, (4.11) ,iini,1 K222WSS,S令，可理解为层内平均方差，即组内方差，于是有 ,iwwii,1 1,f22 (4.12) ,,Sywstn 如果在分配时，尽量使层内同质，即层内方差尽可能小;使层间方差尽可能大，即不同层不同质，由式(4.12)知，按比例分配的样本容量的分层抽样的误差仅与层内方差有关，而与层外方差无关，所以分层抽样可以大大地提高调查的精度。最优分配样本容量 K FFn,，F最优分配样本容量的提法是在给定费用函数下: ,0iii,11、固定费用使均方误差最小; 222、满足误差要求，如或的条件下，使费用最小的分配样pyYd,,,,1,,,,,,styst 本容量的方法。 K FFFn,，定理4.2:设分层抽样的费用函数为时，最优分配是 ,0iii,1 WSFNSF//iiiiii,,,, (4.13) nnniKK WSFNSF//,,iiiiii,,11ii F推论1:当各层调查费用相等时 i WSNSiiiinnn,,,, (4.14) iKK WSNS,,iiii,,11ii 为Neyman分配。 2F推论2:当各均相等，且相等时 Sii Ni,,,, (4.15) nnWniiN 为按比例分配。 4.1.2抽样比超过100%时的修正 n2若抽样比f,较大，个别层的也很大时，按最优分配样本容量的公式计算出SiN 'nN,nN,nN,的，这时对着曾进行100,的抽样，即，将剩余的样本容量个再按iiiii 18 本科生毕业论文最优分配的原则再分配，其具体作法如下(仅对Neyman分配讨论) nN,nN,不妨设则令 1111 WSi'in,()nN, (i2) (4.16) ,iiK WS,iii,2 ''nN,nN,nN",若所有成立，则分配完毕。否则，如取， ii2222 WSii (4.17) "()(3),,,,nnNNi12iK WS,ii,2i N如此重复直至每一层的样本容量均不超过层的个数为止，此时最小方差为 i 112'2'2 (4.18) ,,,WSWS(),,iiiimin'nN ''nN,n其中表示仅对的层求和，是这些层样本容量的总数。 iii, WSi'i有时修正也可以用以下简化的方法，由于每个是按的比例分配的结果，nK WS,ii,1in所以中包含了其比例的成份，简化的方法是: i ',,nnN-nN,若即，令，取: nN,i11111 ni,,,,,，,,2,'nninnn (4.19) iiiik n,i,2i 4.1.3抽样在估计精度的收益 222,、、表示简单随机抽为了与简单随机抽样进行比较，我们分别用,,ranpropopt样、按比例分配样本容量的分层抽样、最优分配样本容量的分层抽样的抽样误差，即均方误差 1ik(1,...,),定理4.3:若可以忽略，则有 Ni 222 (4.20) ,,,,,ranpropopt 19 本科生毕业论文 1,f22证 ,,Srann KK11222,,,WSWS ,,propiiiinN,,11ii KK11222,,,WSWS() ,,optiiiinNii,,11 因为 NK122 (1)()NSYY,,,,,ij,,11ij NKk122= ()()YYNYY,，,,,,ijii,,,111iji kk22(1)()NSNYY,，,= (4.21) ,,iiiiii,,11 kk(1)NN,222iiSSYY,，,() (4.22) ,,ii(1)(1)NN,,,,ii11 11当可以忽略时，则亦可以忽略， NNi 1,f22, ,Srann k1,f22,，,WYY() = (4.23) ,propiini,1而 KKK1，，2222 ,,WSWS,,,(),,,propoptii,,iin,,,111，，iii K12WSS(),,0= (4.24) ,iin,i1 K SWS,其中 ,iii,1 由(4.23)与(4.24)式可知: 20 本科生毕业论文 222 ,,,,,ranpropopt 1若项部可以忽略时，其精度表达式是Ni kk11,f，，2222 (4.25) ,,(),，,,NYYNS()N-,,iranpropii,,i()nNN-1,,11，，ii kk122NYYNS,〈()()N-当 (4.26) ,,iiiiN,,11ii 成立时，按比例分配样本容量的分层抽样要比简单随机抽样有更大的误差，从数学上 22看这是有可能发生的，如果全相同(i=1,...,k)，此时按比例分配样本容量与最SS,wi 优分配样本的粉彩抽样是一致的，(4.26)式可变成 kk1222NYYNSKS,,,〈()()N-(1) ,,iiiwwN,,11ii k122NYYS,〈()即 (4.27) ,iiwK,(1),1i kK2222SWS,SWYY,,()通常称为层间(组间)方差，为层内(组内)方差。,,eiiwiii,1i,1 由(4.22)式可知 222SSS,， (4.28) we (4.27)式变成 N22SS, (4.29) ew(1)K, N说明当层内方差大于层间方差倍时，简单抽样优于分层抽样。 K,1 4.2分层抽样的部分估计法问题的提法 NN(i=1,...,k)设总体第i层有个单位，其中具有某种属性单位个数为个,调查i1i 21 本科生毕业论文 Kkk NN,PNNNN,,//的目标量是:总比例;总数,只要将每一层看作一,,,1111iiii,1ii,,11 个“子总体”，则有 PNNQP,,,/;1各层的比例 (4.30) iiiii1 N2i各层内方差 SPQ, (4.31) iii1N,i NQ2ii各层内变异系数 C, (4.32) i1NP,ii 设 ,,YY...,,,NiiiNi1, 1有某种属性, Y,,ij0否则, YPYNYPYN,,,,，，，于是 11iiii[11]估计法: ,n从第i层中抽取个单位构成子样本Nii yyyy,,,...,，，iiini12i，， n其中有个有某种属性， 1i nin11iˆ (4.33) ,,,yyp,iijinn,1jii n2iˆˆˆˆ(1p)q,,spq,样本方差为 (4.34) iiiii,1ni k ˆˆp=wpp的无偏估计量是 (4.35) ,iii=1 1,f222iˆ,p,wS的均方误差为 ˆpiini kNn,2iiwPQ = (4.36) ,iiinN,(1)i1,ii 22 本科生毕业论文均方误差的无偏估计量为 k1,f222isws, ,iiˆpni1,i kNn,2iiˆˆwpq = (4.37) ,iiinN,(1)i1,ii (1)nn,,NN,,1n当充分大时，使，则(4.36)式近似成 iiiii 2kkw122i (4.38) ,,,PQwPQ,,ˆpiiiiinN,,ii11i (4.37)式近似成 2kkw122iˆˆˆˆ (4.39) ,,spqwpq,,iiiiiˆpnN,,ii11i 4.3分层抽样的比率估计法(SRE法) [12] 4.3.1比率估计法 ,设总体第i层是(i=1,...,k) Ni ,X,,,X,,iN,,i1i (4.40) ,...,,,,,,,,,YY,,,i1iN,,i,,, 各层相应的参数是: 2XXSCYYSR,,,;,,;, ,iiXiiYiiXiii XXYY,;,对于总体有指标: 调查的目标量是: k YwY,, 或 YNY, ,iii,1 X(i=1,...,k)假设已知，又设第i层的样本是: i ,x,,,x,,in,,i1i(i=1,...,k) ,...,,,,,,,,,yy,,,i1in,,i,,, 相应的统计量是: 23 本科生毕业论文 22ˆ xyryxss,,,,/,,,iiiiiixyii YrXn又假设每层样本量足够大，于是第i层的估计量为，其均方误差近似为 iiii Ni1,f122i (4.41) ,,,()YRX,ijiijrXiinN,1,1jii ni1,f122i (4.42) syrx,,(),ijiijrXiinn,1,1jii 总体Y的估计量为 k ywrX, (4.43) ,SREiii,1i k222,,,w (4.44) ,yirXSREii,1i k222sws, (4.45) ,yirXSREii,1i4.3.2 SRE法与SSE法的比较 SSE 法是对每一层用SE法估计，而SRE法是对于每一层用RE法估计，所以我们可以将其均方误差写成: kk222222,,,w,,,w ， ,,SSEiSEiSREiREii1,i,1 CXi若对于每一个i有，即 ,,i2CYi 22,,, REiSEi 则有 22,,, SRESSE 一般情况下，使用与Y高度相关的辅助指标X，采用比率估计法确定可以得到比较好的效果，对于第i层比率估计量的偏差， 24 本科生毕业论文 Bi (i=1,...,k),CXi,yi B'i,,,CC,当各层X的变异系数相同，即，各层的时，近似一样记为，B/',XXrrii,yi 此时比率估计的相对偏差 kk wBwB,,iiiiBii,,11 ,, k12k,32,,y22SREw,,iyw,i,iy,,ii,1i,1,, k w',ikB3/2i1,Cw,/ = (4.46) ,Xik,'3/2i1,w,ii1, k3/2Cw/()01,,当时，总偏差就可以忽略不计。 B/,,XiySRE,i1 [13] 4.3.3 比率估计法的分配分层比率估计法的样本容量分配对于分层比率估计的均方误差 k1,f222i,,wS (4.47) ,SREiRini1,i Ni122其中 SYRX,,(),RijiijiN,1,1ji k FnF在费用F=+固定条件下，使均方误差最小的分配是 ,ii0i,1 wSiRi Fi (4.48) ,,()nFF0ik wSF,iRii,1i SS在设计抽样方案时，如果用比率估计，必须知道的信息，而估计是比较困RRii 难的，有两个规则可以采用。 25 本科生毕业论文 Sa.在比率估计量是最佳线性无偏估计总体中，大致与成正比例，此时 XRii wXii Fi (4.49) ,,()nFF0ik wXF,iii,1i 22X一般情况下，可以认为与近似成正比例，于是有 ()YRX,iijiij wXii FinFF,,() (4.50) i0k wXF,iiii1, 22b.当估计Y时，要满足，使费用最小的分配，其费用函数为,,,ySRE k FFFn,，,， ,0iii,1 令 k wSk,iRi2,1i,()() SwSF,FiRiiF,1ii k22Sws, ,wiiRii,1 22'22nSnS,,,,/,/ (4.51) wF00 Y当估计时， 222'222nNSnNS,,,,/,/ (4.52) wF00 'n0 (4.53) n,1/，nN0 wSiRi Fi ,nnik wSF,iRii,1i 26 本科生毕业论文 4.4本章小结不难看出，内曼分配是一般最优分配的特例，按比例分配又是内曼分配的特例，所以，一般最优分配是样本容量分配的通用规则。由于不同的分配规则引起的层样本容量不同，产生的抽样效率也会有差别，所以如果分配方式不当，就会引起抽样效率的损失。选取分配方法，应该考虑具体的调查目的。调查目的不同，样本容量的选取规则也有差别。 1、调查目的是取得总体特定值的情况在这种情况下，分层实际上是为了改进这些特定值估计量的抽样效率。现实中采用分层抽样多数是为了达到这个目的。在实际工作中，比例分配法最常用。由于它所抽取的样本容量考虑了各层的合理权重，使得综合计算的样本指标能切合实际情况，并且操作实施方便，在不要求费用等因素时颇为适用。若在给定的费用下使估计量的方差达到最小值，或在给定的估计量方差条件下使费用最小，则使用一般最优分配。内曼分配法在考虑各层合理权重的情况下，又使抽样方差减少到可能范围，这种方法在使用时较比例分配法又前进了一步，且它是一般最优分配的特殊情况即每个抽样单元费用相等。实践中也有些更具体的规则可供参考。 A.当各层样本单元的调查成本显著不同时，采用一般最优分配; B.调查变量的层总体方差的估计值不同时，采用内曼分配; C.当调查变量的层总体方差估计相差不大时，采用按比例分配。 2、调查目的是进行各层之间的比较一般来说，这种比较最好是在有相同相对标准误的层样本估计量之间进行，应该用相同的样本容量，除非总体方差或单位调查费用在层间变化很大。在后一种情况下，应使分配的各层样本容量与层总体标准差成正比，与层平均费用的平方根成反比，这样会使总体层与层之间差的平均方差达到最小。 3、调查目的是既要估计整个总体也要估计层特定值的情况在这种调查结果对总体和各层(即子总体)都需要的情况下，样本容量分配应视主次而定。如果调查的主要目的是估计整个总体，那最优分配是适当的，但如果求得各层的统计量更重要，那么，不论从提高层估计精度还是从使层与层更容易比较来讲，就必须做一些特定的样本容量分配，以便在这两个目的之间做一些妥协。 27 本科生毕业论文第5章实际应用中的分层抽样 5.1分层抽样方法在实际应用中存在的一些问题 5.1.1有关分层抽样框效率的问题一、分层抽样框效率的研究思路抽样框是根据目标总体整理而成的全部抽样单位的名单。当两个总体之间存在着严格的对应关系时，目标总体总量(或其均方误差)是各层总量(或各层层内方差)的加用公式表示即: 权平均数， NiXx, (5.1) ,ini 2N2i (5.2) ,,1VXfS，，，，,iini Nnfx其中:和为第i层的单位总数和样本单位数，为第i层的抽样比，为第i层iiii 2S的样本标志总量，为第i层的样本方差，作业总体总量的估计量X是目标总体总i 量真实值X的无偏估计量。但是在实际工作中，目标总体与作业总体之间的严格对应关系并不一定存在。即使抽样框在初建时与目标总体严格对应，由于目标总体的不断变化，而抽样框在相当长的时间内保持稳定不变，仍然会使得抽样框不完善，故而运用上述公式的前提得不到满足。此时，总误差的影响因素还包括非随机误差(非抽样误差)。当然，非随机误差在一定范围之内是可以忽略不计的，或者通过修正后仍然可以接受，而超过一定限度后，抽样框就应该被废弃，我们称这一问题为“抽样框的效率”。抽样框是否仍然具有效率，在进行全面调查之前，较可行的办法是利用抽样所得的样本信息予以判断。造成抽样调查误差的原因很多，本小节假定在整个误差体系中忽略所有其它因素，只保留随机误差和抽样框误差。例如:被调查者拒绝提供数据、故意提供虚假数据、记录错误、电脑计算程序错误等等均应予以排除。 [14] 二、分层抽样框效率的判定原则两个总体之间的严格对应关系遭破坏是不可避免的，由此造成的影响是破坏了估计量的数理统计性质。例如，非随机误差(非抽样误差)并不能通过简单地增加样本容 28 本科生毕业论文量来缩小。当然，这些影响仍然是可以测量的，当我们从一个效率不完全的抽样框中抽样时，会发现各层样本中包含有非本层单位。样本所揭示的信息是测定抽样框效率的重要依据，Szameitat和Kish有如下设想:当分层不严格时，一些规模大的目标单位 NiXx,被划入规模较小的层中，反之亦然，故而从平均意义上来说，仍然是X,ini 因此，推荐采用剔除错归层单位的办法来忽略其影响。在进行了的一个无偏估计量。这种处理这后，分层抽样的总误差应为: 2，，NNN,,Ngigigi22i,,,,，,11 (5.3) MSEXVXfSx，，，，，，,,,,,iiinNNNiiii,,，， N为第i层中正确归层的单位数量，其它字母意义同前。Szameitat和Kish还认为，gi 倘若不这样处理，而是简单地把识别出来的错归层单位恢复原层，反而会造成估计的偏向，降低估计精度。这一设想是否必然成立,本文认为:两总体的背离是个渐变的过程，可能初始变化时该设想是成立的，而继续变化下去也许就不再成立了，所以必须经过假设检验方可确认。该检验的思路是:充分考虑分层时可能的错误，应存在两 *个总量，即作业总体总量X和目标总体总量X，若假定成立，则两总量之间的差异*XX,仅属于随机波动，那么: a.这个差异的相对量应不会很大，当不超过10%时，就算是有偏估计量，对估计效果的影响也是微不足道的; ,Xb.即使样本信息表明该差异大于10%，也不能认为X与之间存在数理统计意义 **HXX:,X上的显著性差异，若要断定X是的有偏估计量，必须否定零假设。 0三、抽样框效率的判定过程在构造零假设时，首先仍然认为抽样框具有效率，那么归层错误的单位在各层间 p的散布都是随机的。这时，可定义在各层样本中正确归层的目标单位比重为，将它i P作为该层中正确归属的目标单位成数的点估计。这样就可以定义经过调整后的抽样i 框: mm*NNNPNP,,， (5.4) ,,iiijikik,,11jk ,,jiki 29 本科生毕业论文 mm* (5.5) nnnpnp,,，,,iiijikik,,11jk ,,jiki **NnNn其中:和为第i层调整后和调整前的单位总数，和代表调整后与调整前该层iiii Pp为该层中属于其它各层的单位数的比重，为其的样本数目jiik 它各层中归属于该层的单位数的比重。经过调整后的工作总体总量的估计量为 *N**i (5.6) ,Xx,i*ni *2N***i (5.7) ,,1VXfS，，，，，，,ii*ni 与Szameitat和Kish方法不同的是，这里并不是简单地把样本中发现了的错归层单位调整到正确的层中去，而是对各层总体所有错归层的单位进行带有置信保证程度的调整。调整后对抽样框的判定结果一共有三种情况:强效率、弱效率、无效率。 (一)抽样框强效率 P首先，对抽样框作调整时采用的是区间估计，在显著性水平α下，可以求得对jk进行估计的必要单位数目。如果抽取的各层样本不大，则认为错归层单位成数服从二项分布或超几何分布，且必须采用非重置抽样，样本的必要数目为 2u,,,pqjkjk,,d,, (5.8) n,jk2,,upq1jkjk,11，,,,2,,NdK,, P其中，d为对估计的绝对误差。 jk 如果样本较大,则认为错归层单位样本成数服从正态分布 pPpNPPQjmkmjk~,;1,2,...,;1,2,...,;,,,，其中和分别为原属于第j，，，，jkjkjkjkjkjk 层而应该调整为第k层的样本单位成数和该层总体单位成数。那么必要的样本单位数为 2nPQud, (5.9) ，，jkjkjk, PP在理论上，应取值为0.5。但在本研究中，错归层单位必然较少，通常极小，取jkjkP=0.5认为错归层单位达到总单位数一半，这显然是与现实相违背的。按照假设检jk 30 本科生毕业论文 pPP验的程序，可以暂取它的估计值。如果个别的估计达不到最低样本数目，可jkjkjk P以采用两种对策，一是依据个别适量地扩大样本容量，二是认为Szameitat和Kishjk P的假定成立，错归层的单位一般极少，故而令=0，即不予调整。所以在定性分析的jk 基础上，如果可断定作业总体与目标总体的变异不大，则可省去这一步骤，直接令Pp=。 jkjk *XX, 其次，如果，按照Cochoran的原则可知，此时无论X统计性质如,10%*X *XX,*HXX:,何，抽样框都是具有效率的;若，则必须进行假设检验。定义，,10%0*X **按照零假设，应有:。定义显著性水平β，得到接受域 XNXVX~,,，，，， ****，， ,;XuVXXuVX,，，，，，,,,,，，考虑到该检验经过两次区间估计，所以总的概率保证程度为(1-α)(1-β)。假如X落在接受域，即说明找不到足够的理由证明目标总体与作业总体之间有显著差异，所以只能认为Szameitat和Kish的假定成立，两总体之间仍然保持着原来的对应关系。作业总体与目标总体之间的变异是由于随机波动造成的，抽样框也仍然具有效率，只要简单地剔除个别错归层单位即可，可以应用公式(5.1)和(5.2)。 (二)抽样框弱效率 *如果抽样框强效率的条件得不到满足，则说明X是X的有偏估计量，Szameitat和Kish提出的假定不成立，也就是说规模较大的单位与较小的单位之间不是一种随机的互换关系，有系统偏差存在。从假设检验的角度讲，造成估计量不能通过检验的原 pP因在于:用某类错归层单位的样本成数作为总体成数的点估计是错误的。此时，jkjk 抽样框必须做较多修正才可以使用。较直接的方法是把均方误差改写为 2，，NNN2,,Ngigigi222*i (5.10) ,，,,,，,，,11MSEXVXBXfSxXX，，，，，，，，，，,,,,,iiinNNNiiii,,，，这一处理是在不改动抽样框的前提下进行的近似处理。如果要进行较为精确的测定，原有的样本此时已不能向我们提供充分的信息，即不能确定究竟是哪一种错归层类型存在较大的成数点估计错误，所以应该全面地增加样本容量，而不是如强效率条件下的那样只是做个别地调整。 31 本科生毕业论文从纯理论的角度来看，把所有的成数定义为方差最大化最具概率保证程度，即: Pjmkmjk,,,,0.5;1,2,...,;1,2,...,;，，jk P,0.1PQ,0.0099P,0.5但这会使得样本容量太多，从而成本太高。如，，而当jkjkjkjk PQ,0.25时，，样本容量将放大近250倍，这在现实工作中是不可行的或不必要的。jkjk *这时可以采用逐步逼近试解的方法，确定一个合理的成数参照标准，作为扩大样本P容量的依据。抽样框调整后，样本将重新分配，做补充抽样并再次进行检验，如果能够通过检验，说明抽样框仍然可以接受。不过所需的样本较多，其效率受到一定程度的影响。弱效率情况下样本统计量为公式(5.6)和(5.7)。三)抽样框无效率 ( 所谓抽样框无效率有两层含义:一是指有足够的理由证明抽样框的误差太大;二是指在所允许的范围内找不到足够的理由来证明抽样框具有效率。具体而言可应用以下两条工作准则。第一，误差否决:对于样本中发现的非本层单位，如果既不剔除，也不予以调整，而是仍然按照(5.2)式来计算样本方差，由于非本层单位的存在，该方差必然很VX，， 2大。另外再把所有样本作为纯随机抽样，来计算纯随机场合下的方差。并事先规定S分层抽样误差不得大于纯随机抽样误差的一定比例,,(01),,，按照谢邦昌教授的研究，分层抽样的误差一般只有纯随机抽样的1/10，所以，可以选=0.3或0.5。如果, 2，即可认为分层抽样误差已扩大到不可接受的程度，该抽样框已无效率可VXS,,，，言，应对其实施误差否决。第二，成本否决:如弱效率场合下分析的那样，如果当前样本容量不足以证明抽样框的效率，应尝试逐步加大样本容量来证明抽样框仍然具有效率。可以放大错归层 PP,0.1,0.2...单位成数的点估计上限(如)。事先规定分层抽样的成本不得超过给定jkjk ***值，可以定义为随机抽样成本或重建抽样框成本的一定比例，如果，即可CCCC,认为无法证明该抽样框仍具有效率，应该重新定义抽样框，而对原抽样框实施成本否决。 5.1.2调查项目具有敏感性在抽样调查中，有些调查项目具有很强的敏感性，如被调查者是否有吸毒行为， 32 本科生毕业论文是否偷税漏税等。如果对这些敏感性问题采用直接调查的方法，调查者将难以控制样本信息，得不到可靠的样本数据。为了得到敏感性问题的可靠的样本数据，使被调查者能够很好地配合调查。Warner在1965年开创性地提出了随机化回答调查法。这种调查方法的原理是在调查中引入随机化装置，使被调查者在保证真实回答的前提下，采用随机化回答装置，既能为被调查者保护个人隐私，也能使调查者获得所需的真实信息。之后，Horvitz、Shah&Simmons(1967)、N.S.Mangat(1990)、Anthony Y.C.KUK(1990)、Mangat(1994)等提出了各种敏感问题调查方法，但这些方法均是讨论如何改进随机化装置而没有考虑抽样设计的选择。这就激发我们考虑在敏感性问题调查中抽样方法对调查精度的影响。本小节讨论了在分层抽样设计下使用随机化回答模型。在直接调查中，如果总体分成若干子总体，在每一子总体内单元间差异较小，这时只需在子总体中抽取少量样本单元就能很好地代表子总体的特征，从而通过分层抽样可以提高调查的精度，这也是实际中使用分层抽样设计的前提条件。如果敏感问题调查总体分成若干子总体，具有层间差异大，层内差异小的特点，则调查采用分层抽样应该有高的精度。 [15] 1、沃纳模型及分层抽样沃纳模型是1965年由Warner提出的，其设计原则是提供给被调查者一包外形完全相同的卡片，卡片上分别写有问题“你有敏感属性A吗,(你属于A吗,)”和该问 CA题的对立问题“你没有敏感属性A吗,(你属于吗?)”。两项问题卡片按预定比例配置，让被调查者从中抽取一张，根据抽到的问题和自身属性的匹配情况作出真实回答。这一过程不被调查者观察到，从而起到了为被调查者保密的效果。 1.1 模型设计及参数估计设总体中的第一个体或者有敏感属性A，或者没有敏感属性A，调查目的是估计具有敏感属性(属于A)的个体在总体中所占的比例π。 N假定根据所掌握的有关调查指标的信息将总体分成k层，代表第i层的总体容i k nn,n量，在每一层使用简单随机放回抽样的方法抽取容量为的样本()，然后对,iii,1 W每一层的样本进行随机化回答调查。代表第i层总体的层权且它是已知的，且i WNN,。 ii ,设代表第i层总体中的敏感比例，π是分层总体中具有敏感属性个体所占的比i k ,,,W例，且。在每层中使用Warner随机化装置 ,iii,1 (i)你有敏感属性A吗, P 33 本科生毕业论文 (ii)你没有敏感属性A吗, 1-P ,设表示调查中第i层个体回答“是”的概率，则 i ,,,,，,,,PPhk11,1,2,...,，，，，iii miˆˆm,设调查中在第i层有个人回答“是”，记,,。由得到的一个矩估,,,iiiiini 计且是极大似然估计: mi,,1P，，ˆ,,,1P，，niˆ ,,P0.5,,，，i2121,,PP 进而得到分层总体敏感比例π的一个估计量: kˆWP,,,1，，,iiki,1ˆˆ,,W (5.11) ,,,ii21P,,1i估计量的无偏性 ˆkkkEP,,,1，，，，i,,ˆˆˆEEWWEW,,, ,,,，，，，,,,iiiii,,P,21,,,111iii,, Em，，i,,1P，，kk,,,1P，，nii ,,,WW,,,ii2121,,PP,,11ii ˆ即是π的一个无偏估计量，其中。 Emn,,π，，iii ˆ定理,.1:估计量的方差为 π k，，PP1,，，12ˆVW,,,1,,,， (5.12) ,,，，，，,1iii2nnP21,,1i，，,,ii，，证明: kk,,2ˆˆˆ VVWWV,,,,,，，，，,,1iiii,,,,11,,ii ˆkV,，，i2 ,W,i2,P21,1i，， kVm，，i2,W ,i2221,nP,i1，，i 34 本科生毕业论文 k，，PP1,，，12W,,1,,,， ,,，，,iii2nnP21,,1i，，,,ii，， [16] 1.2 无放回抽样方式下的沃纳模型 n将容量为N的总体分成k层，每层独立使用简单随机无放回抽样抽取容量为的i样本，则沃纳模型的估计量: kˆWP,,,1，，,iik,1iˆˆ,,W (5.13) ,,,iiP,21,ik ˆ即是π的一个无偏估计。 π ˆ定理,.2:估计量的方差为 π k，，PP1,1,f，，2iˆVW,,,1,,,， (5.14) ,,，，，，,2iii2nnP21,,1i，，,,ii，，证明: k，，PP1,Nn,，，12iiˆ,,,VW,,,,，1 ,,，，，，,2iii2Nn,1nP21,,1i，，,,iii，， k，，PP1,1,f，，2iW,,1,,,， ,,，，,iii2nnP21,,1i，，,,ii，， mniiˆmf,,,其中，是第i层回答“是”的人数，是第i层的抽样比。 iiinNii 5.2分层抽样技术在应收账款审计中的应用随着企业之间产品销售竞争的加剧，作为扩大销售的赊销不可避免，应收账款也就应运而生，并且应收账款的期末余额在一些企业的资产总额中占有相当大的比重，因此应收账款的期末余额的计量是否准确和发生是否真实对资产负债表和利润表的真实性和正确性就有了较大的影响。如何对应收账款的真实性和准确性做出客观的评价，减少审计风险，就是注册会计师所必须面临的问题。应收账款函证是应收账款审计中最重要的审计手续之一，通过函证可以对应收账款的真实性和准确性做出有效的判断。对应收账款的函证是采取全面函证还是抽样函证，这就取决于应收账款客户总体的数量。如果客户总体的数量很少，全面函证也并非不可，但是当客户总体的数量非常之大，抽样函证就势在必行。对于抽样函证是采取简单随机抽样还是采取分层抽样等，这要看具体情况而定。如果每个客户应收账款数额的总体呈正态分布，简单随机抽样 35 本科生毕业论文就非常合适。本小节主要讨论在:(1)应收账款的期末余额很大(比如说5000万)(2)客户总体的数量很多(比如说5500户) (3)客户之间的款项相差又较大(比如说多的有100万元，少的有200元)的情形下，采取分层抽样完成应收账款期末余额的审计。一、选定分层和确定各层样本量设某公司2008年12月31日应收账款余额的账面价值为5000万元，客户数为5500，令可容忍误差为22万元。关于分层数的确定，一般来说，当总体差别越大，层 [17]数应相对多一些。根据科克伦的《抽样技术》和冯士雍与施锡铨著的《抽样调查— [18]——理论、方法与实践》所讲述的一般分6层，即使再增加分层能提高精度，但提高的效率已非常有限。本文也选择分6层，具体情况见下表: 表 5.1 层账面值客户数账面总金额标准差 1 50万以上 2 50~10万 3 10~4万 4 4~1万 5 1~0.5万 6 0.5万以下表5.1中的标准差数值可以根据标准差计算公式和期末应收账款明细账资料，利用 nExcel或者其他软件很方便地计算出来。分层抽样中各层的样本量是由抽样者选取h的。可以在规定的抽样费用条件下选得使达到最小，或在给定的条件下VyVy，，，，stst使费用最少，最简单的费用函数具有形式费用,,，CCcn,0ii cC在每一层内费用与样本的含量成正比例，但是每个单位的费用可以各层不同。这i0一项表示一般管理费用。当费用中主要是在每个单位上测定数据时，这个费用函数是合适的。应收账款期末余额的审计费用符合这一函数形式。斯图尔特(Stuart, 1954年) n曾经指出，应用柯西—施瓦茨不等式可以推导出，当与成比例时，在规定WSciiii y的费用C的条件下，均值估计的方差达到最小值;在规定的方差条件下，费Vy，，stst n用达到最小值。用各层的样本量表示，就有 i 36 本科生毕业论文 WSCNSCniiiiiii ,,nWSCNSC，，，，,,iiiiii n下一步就是要完成样本单位的分配，上式给出了用n表示的，但是我们还不知道ni 的数值是多少。这个解取决于总的费用C是固定的情况下来抽样，还是在方差V已给 n的最优值代入上述线形费用函数解出n。定的情况下来抽样。如果费用是固定的，将i 这给出 CcNSc,，，，，,0hhh n, NSc，，,hhh n如果方差V固定，将最优代入方差的计算公式，可得 i WSCWSC，，,,hhhhhhWNN,，其中 n,hh21VNWS，，，,hh c从以上样本量计算的公式中可以看出,为了计算出样本总量和各层样本量，和V或i 必须知道或能通过其他方式计算出来。对于审批抽样来说它与其他抽样有一个Cc,，，0 很大的不同，不能借口花费而不去取得重要的审计证据，也就是说我们通常是在保证精度的条件下，通过抽样来减少花费，在V一定的的条件下，求最佳的样本量和层样 2本量，使费用达到最小。尽管本题没直接给出V，但是，我们可以用公式来Vdt,，，计算，其中t是相应于误差会超过期望的界限时的容许的概率的正态偏离值(本题中t=1. cc,,25cc,,16cc,,996)。为了计算的方便，我们取，，。假定各层户数分123456 别为12、57、154、400、1012、3865，对应的各层标准差为25000、7500、2300、890、230、54元。根据上述条件利用Excel统计软件计算得出样本量为150，各层样本量分别为12，29，30，30，26，23。对于该样本量的计算我们应特别注意，这涉及到要求 n进行大于100%的抽样分配。也就是说，求最优分配的公式得到的在某些层可能会大i N于相应的。但是实际所能做到的充其量就是抽取这一层的全部个体，即对这一层进i 行普查。本例就属于这一情形，计算出总样本量150之后,利用 WSCNSCnhhhhhhh ,,nWSCNSC，，，，,,hhhhhh 37 本科生毕业论文计算出第1层的样本量为19。然后将第1层样本量取12即全部进行函证，剩余的138个样本量在按上述公式进行分配即可，如果再遇到这种情形它的处理方式与第1层的一样。 [19] 二、抽取样本并函证通过样本客户资料作出审计评价根据上述中各层分配的样本量在各层中抽取样本，第1层全部抽取，其余各层采取简单随机抽样，抽样工作由计算机完成。计算机的迅速发展为注册会计师的抽样审计工作输入新鲜的血液，使原来不可想象的海量计算，只要输入计算程序，由计算机瞬间就可完成，只要注册会计师能掌握抽样的技术，审计效率便可得到极大的提高。对于被抽取的客户，注册会计师便可实施函证，在实施函证手续时，审计人员必须确定使用函证的种类，手续的时间安排及函证的项目常用的应收账款函证方法有二，即肯定函证和否定函证。肯定式函证是一个更为可靠的证据，因为在未收到债务人的答复时，审计人员即可采取进一步的手续，而对于否定式函证来说，不答复就算账目正确，即使债务人对函证不理睬也如此。通过注册会计师审计肯定式函证资料并计算整理如下: 各层的样本审计均值为774235、214756、50003、24235、7231、921元，样本标准差为24879、7542、2287、878、241、58元。根据抽样审计资料和分层抽样的计算公式 1L1yNyWy,, 和,,sthhhhN,,hh11 21S12hsyNNn,,，，，，,sthhh2Nn,h1h y计算得出样本均值=9055。24和样本均值的标准差 =22，在95%的概率保证Sy，，stst 程度下，总体的总值的置信区间为5500×(9055. 24-1. 96×22，9055. 24+1. 96×22)即(49566660，50040980)从上面的计算结果可知，该企业2000年12月31日应收账款余额的真实值有95%的把握在49566660到50040980元之间，而该公司应收账款余额的账面价值50000000元在上述区间内，因此注册会计师得出该公司应收账款余额的账面价值正确的结论。 [20] 三、分层抽样审计效率评价如何评价使用分层抽样提高应收账款期末余额的审计效率，通常可以从两方面来考虑，一是，在审计费用相同的条件下，提高估计的精度;二是，在保证做计精度相同的条件下，减少审计费用。关于分层抽样效率通常是分层抽样与简单随机抽样相比，鉴于审计抽样的特殊性，审计抽样通常是在保证精度前提下尽量减少审计费用。 38 本科生毕业论文 212222在简单随机抽样的条件下，样本量的计算公式为在95%的概ntxt,,，,,，，N率保证程度下即t=1.96，总体标准差为800元，由总体总量容忍误差为220000元，可知样本均值的可容忍误差为40元，N=5500。代入上述计算公式可得出n=1201。从分层抽样的样本量和简单随机抽样的样本量来看，使用简单随机抽样所需的样本量为分层抽样的样本量的8倍，他的估计精度才能达到分层抽样的估计效果，此时使用简单随机抽样审计费用比分层抽的审计费用要高出很多。在管理费用相同的条件下，审计费用的变动部分在分层抽样的条件下为2453 (12×25+29×25+30×16+30×16+26×9+23×9)元;而审计费用变动部分在简单随机抽样的条件下至少为10809 (1201×9)元。本案例分层抽样与简单随机抽样的效率提高是显然的。分层抽样的效率能否得到很大的提高，一般取决于以下三个条件: 1、总体是由一些大小差异很大的单位组成的。 2、要测量的主要变量与单位的大小是密切相关的。 3、对单位的大小有很好的测量材料可以用于分层。对应收账款的期末余额的抽样审计来讲，应收账款的账面价值作为应收账款的审计价值的重要辅助信息用于分层是非常合适的，应收账款期末余额数值与应收每个客户的账款数密切相关。所以对于应收由账款期末余额审计，只在应收客户的账款数相差很大，分层抽样就能取得很好的效果，通过上面的例子也恰好证明了这一点。特别是计算机技术的应用又极大的提高了分层抽样工作效率，对于具有大量数据的分层和抽样及计算等人工根本难以完成的工作，只要注册会计师输入计算程序并发出运算指令，计算机就能迅速完成。 5.3本章小结分层抽样作为一种理论方法，在实际应用中必然会遇到种种问题，而分层抽样理论本身也存在许多有待完善之处。本章立足于实际应用中的分层抽样技术，讨论了分层抽样在实践中存在的一些问题，并给出了解决方案。本章第二部分主要依据审计工作的特点对分层抽样方法的实际应用进行了分析研究。分层抽样方法在审计中的应用，可以确保抽样检测数据的可靠性和代表性，这有助于使审计工作更加科学合理。当然，分层抽样技术作为一种应用技术，并不能取代传统的审计方法。但是，在审计实践中，恰当运用分层抽样技术，并结合局部的详细审计，我们就能较快发现线索，全面地揭示问题，就能有效节约审计资源，控制审计风险，就能使许多单纯运用传统审计方法很困难甚至不可能解决的问题迎刃而解。分层抽样技术的应用必将促进审计工作登上一个新的台阶。 39 本科生毕业论文结论本文围绕“分层抽样调查”这一主题，结合概率论与数理统计的相关知识，对分层抽样的一些基本方法进行了较为深入的讨论与研究。不难看出，各方法都有其特定的适用范围，因此，在进行抽样调查之前，必须综合考虑各种理论及现实问题，明确具体的调查目的，从而选取适当的分层及估计法，得到令人满意的结果。因此，在分层由上文可知，样本容量的分配是否得当直接影响抽样结果的好坏，抽样调查过程中，如何根据实际情况分配样本容量就显得尤为重要。影响各层样本容量分配的因素主要有: 1、层的大小，一般用各层单元数在总体单元数中的比重表示，即层权。层权体现了总体的内部构成，其大小直观上体现了各层在总体中的地位高低。层权越大说明该层在总体中占据的地位越重要，则在样本容量一定的条件下，提高样本对总体的代表性，就应在该层多抽样本单元。反之亦然。 2、各层的变异程度。各层的变异程度通常用层标准差来表示，层标准差越大，说明变异程度越大，即离散程度越大，保证一定的代表性所需的样本量就越多。所以，在样本容量一定的前提下，在变异程度大的层尽可能地多抽取样本单元能有效地提高样本的代表性，从而提高估计的精度。 3、费用。在调查实践中，抽取样本单元并调查需要花费一定的费用。在费用预算一定的前提下，若某层取样并调查的单位耗费较大，则应尽量减少该层分配的样本量，从而在费用一定时尽可能多地抽取样本单元;或者说，在样本量一定的条件下，在单位费用较高的层少分配样本量会有效地控制调研费用。 4、其它因素。除以上因素外，还有比如各层样本问卷回收率的不同等影响因素，若某层样本问卷回收较困难，就应增加该层样本抽取的数量，从而保证样本的代表性。具体分配各层样本容量时，可以仅考虑以上的一个因素，也可以同时考虑两个或两个以上的因素。一般而言，考虑的因素越多，样本对总体的代表性越高，抽样推断的精度也就越高。但是，需要的信息就要越充分，分配样本量的工作也越复杂，调查费用也就越高。所以，实践中需要考虑哪些因素来分配各层的样本量，需视具体的条件、环境以及要达到的要求而定。这就需要调查实践者清楚地认识到各种分配方法的优缺点和适用性，以便更好地选择。以上对于影响因素的讨论主要立足于一个调查变量的情形。事实上，调查变量的 40 本科生毕业论文多少会明显影响样本容量在各层的分配。另外，在抽样调查的各种方法中，除分层抽样外，整群抽样同样占据着重要的地位，在实际的抽样研究中有着广泛的应用。根据上文，分层抽样能够较大的提高抽样的精度，而整群抽样则由于组织实施简单，能够较大的节约调查的费用和时间。如果要同时兼顾精度和费用，自然想到将两种抽样方法相结合，我们有理由相信，分层抽样与整群抽样的结合使用，必将使抽样调查在现实中发挥更大的作用。 41 本科生毕业论文参考文献 [1] 盛骤，谢式千，潘承毅(概率论与数理统计[M](北京:高等教育出版社，2001( [2] 谢邦昌(抽样调查的理论及其应用方法[M](北京:中国统计出版社，1998( (抽样方法的系统研究[M](北京:中国统计出版社，1998( [3] 卢宗辉 [4] 梁小筠，祝大平(抽样调查的方法和原理[M](上海:华东师范大学出版社，1994( M](北京:中国统计出版社，[5] 冯士雍，倪加勋，邹国华(抽样调查理论与方法[ 1999( [6] Tracy，Singh，Arnab(Note on Calibration in Stratified and Double Sampling. Survey Methodology [J]，2003(29):19-104( [7] 严帆(谈分层抽样各层样本容量的确定[J](山东建筑大学学报，2002(2):2-4( [8] Ming Tan，Hong-Bin Fang，Guo-Liang Tian，etc(Testing Multivariate Normality in Incomplete Data of Small Sample Size [J](Journal of Multivariate Analysis，2005(93): 164-179( [9] Ahmed M S(Some Estimators for a Finite Population Mean under Two-stage Sampling Using Multivariate Auxiliary Information [J](Applied Mathematics and Computation， 2004(153):505-511( [10] Dichotomous Finite Population [J](Journal of Statistical Planning and Inference，2001 (94):37-42( [11] Yan Liu,Mary Batcher和Fritz Scheure,Efficient Sampling Design in Audit Data,Journal of Data Science, 2005(,):213-222. [12] Zhang R C(An information-theoretic approach to the effective usage of auxiliary information from survey[J](Annale of the Institute of Statistical Mathematics，2006 (58):499-509( [13] Yan Liu，Mary Batcher，Fritz Scheure(Efficient Sampling Design in Audit Data[J]，Journal of Data Science，2005:213-222. [14] 陈雪如(敏感性问题中的抽样调查方法与均方误差[J](南京师大学报，1997:12-16( [15] Arijit Chaudhuri(Using Randomized Respouse from a Complex Survey to Estimate a Sensitive Proportion in Dichotomous Finite Population [J](Journal of Statistical Planning and Inference，2001(94):37-42( 42 本科生毕业论文 [16] 孙山泽，孙明举，段钢(二项选择敏感性问题调查的基本方法[J](数理统计与管理，2000(2)1-2( [17] William G. Cochoran，抽样技术[M](张尧庭，吴辉，译(北京:中国统计出版社， 1985( [18] 冯士雍，施锡铨(抽样调查——理论、方法与实践[M](上海:上海科学技术出版社，1996( [19] Wu(C(Sitter，R((A model-calibration to using complete auxiliary information from survey data [J](Amer.Statist. Assoc. 2001(96):185-193( [20] Arens and Loebbecke(Auditing-An Integrated Approach (Eighth Edition) [M](Prentice-Hall Inc..2000( 43 本科生毕业论文致谢四年的大学生活在这个季节即将画上一个句号，而于我的人生却只是一个逗号，我将踏上一段新的征程。四年的求学生涯在老师、亲友的支持下，走的辛苦却也收获颇丰。在论文即将付梓之际，我思绪万千，心情久久不能平静。首先，我要感谢我的导师曲绍平副教授。从论文题目的选定到论文的写作，在曲老师的悉心指导下，我对论文内容的理解得到了一次又一次的提高，没有曲老师的帮助，我是不可能顺利完成我的毕业论文的。另外，曲老师严谨治学的精神也是我永远学习的榜样。我还要感谢含辛茹苦将我养育成人的父母。我今天的一切，都源自他们年复一年的默默付出。他们的恩情，我将用一生去回报。在论文的写作过程中，还有去多可敬的师长、同学、亲友给了我莫大的帮助与支持，在此请接受我诚挚的谢意。最后，再一次感谢在毕业设计中曾经帮助过我的每一位良师益友。 44 本科生毕业论文附录文献翻译: 抽样调查理论的最新发展及其对官方统计的影响 T.M.。弗雷德史密斯南安普敦大学的数学系，南安普敦，SO17 1BJ，英国 1、介绍非常荣幸被邀请做本次演讲，以纪念IASS成立25周年。ISI委员会在1971年投票决定成立一个新科——IASS，并且IASS于1973年在维也纳举办了第一届会议。IASS的学报自1975年就已被公布，我们现在正在使用第39版的《调查统计》。1975年间还首次出版了《调查方法》，而1985年推出了《官方统计期刊》。抽样调查现在有了一些主要的用来传播理论成果和讨论实际问题的渠道。在对最近的研究的回顾中发现，就像IASS反映的一样，一些主题会重复出现,如普查，抽样误差及其计算，消费物价指数，企业和家庭调查，市场研究，官方统计数据的提出，以及各种形式的非抽样误差。也有一些在重要性上取得进展的主题，如编辑和估算，统筹调查，小面积估计，重复调查，以及电脑的使用。出现的主题包括:保密，计算机辅助面试，多重估算，统计指标，时间序列方法，质量保证以及总测量误差。以有限人口推理为基础的主题数量则产生了下滑。人们经常声称抽样调查理论与实践之间存在差异。这一事实表明抽样调查理论存在某种问题，但我要说最优秀的抽样调查实践都是以理论为基础的。1973年讨论的另一个差异是存在于抽样调查理论和其余的统计理论之间的。我的观点是，这两种观点在很大程度上都只限于少数人。 1925年ISI终于通过了使用官方统计数据中有代表性的样本的提案，这是因为报告不仅提出了一种选择有代表性的样本、简单随机抽样的方法，同时也提出了一种衡量由抽样造成的不确定性的理论。没有这个框架，有代表性的样本抽样就缺乏可信度。很难将这一理论延展到更复杂的抽样计划，这一问题是由Neyman(1934)解决的，他将调查推论的理论基础由超几何推理似然函数改成了基于随机分布的抽样误差。从此，理论和实践在如Morris Hansen——ASS的第一任主席等人的带头研究下共同迅速发展。到了20世纪50年代，随机理论几乎发展完善，并且人们的注意也从抽样误差转移到了非抽样误差，这依然是在Hansen的领导下。此期间的研究成果都基于由实践 45 本科生毕业论文问题发展而来的连贯的理论。在20世纪50年代和60年代，理论家专注于随机推论的理论基础。例如，Godambe(1966)，Basu(1971)试图将随机推论融入主流推论，都基本以失败告终，这导致了对另一种基于模型的调查推论框架的寻求。这项工作似乎吸引了从业人员，并可能导致了理论和实践在感觉上的差异。理论家，如Ericson(1969)，Scott和Smith(1969)以及Royall(1970)，表明模拟方法可以用于复杂的有限人口结构和抽样计划。我们可以留意Smith(1976)等人作为回顾。当我们提起1973年的故事时会发现，当时的一大问题是随机论与基于模型的推论。 2、基于模型的推理和随机推理鉴于推理的难以归纳性，应该有其他替代办法就不足为怪了。在维也纳IASS会议上，Fuller(1975)提出了一套用于回归分析调查数据的方法，而Brewer和Mellor(1973)通过Harry(实际调查统计学家)与Fred(更年轻并更倾向于理论)之间的对话帮助人们澄清了这个问题。首先澄清的是承认了为了推论而确定目标人群的重要性。如果目标是可以从中提取样本的固定的有限人口，那么推论就是描述性的。如果目标是其他一些人口，那么即使是完美的人口普查也会留下推论性的不确定性，这时推理就是解析的，这是由Deming(1950)引入的条款。对于解析性推理模型是必要的，但对于描述性推理，在基于模型的预测推理和随机推理间则有一个选择。人们对于随机推理的一个观点是，因为它并不取决于模型，所以它是易于应用的。Smith(1994)表明，此观点缺乏实质内容，并可以解释为偏见和差异之间的转移。而且随机推理并不是独立的，它在很大程度上取决于正常逼近。人们很容易构造正常逼近失败的例子，尤其是在人口离群时。Cochran(1977)给出了确定正常逼近在SRS下建立一个标准化的统计所必需的最低样本容量的规则。Sugden等人(1999)将此规 2G则扩展到标准统计。如果是Fisher偏斜方法，那么他们提出。异常导nG,，282511G致值过大，即使在大型调查中，研究领域中的样本量也可能会失败。 1 Royall(1976)认为，如果你同时知道样本和人口中某些变量的值，那么推论就应该建立在实际选取样本的基础之上，而不是建立在所有可能的样本分配的基础之上。在Fisherian条款中样本属于相关子集。基于模型的推理以变量和选取的样本单位为条件，Royall以经验论证了基于模型的区间估计的条件覆盖性能远优于相应的随机间隔。这向Holt和Smith(1979)，Rao(1985)等随机推论的拥护者提出了一个严峻的挑战。人们需要一种新的办法，Robinson(1987)运用调查变量、Y与变量、X间的联合分布的渐近正态性在比率估计方面提供了这种方法，以获得Y对于X的条件分布，并因 46 本科生毕业论文此形成了一种条件随机推理。Casady和Valliant(1993)使用此方法构建了快速分层的条件推论。在这方面，新的理论——由看似深奥的辩论引起——可能会导致实践中有关介绍、解释抽样误差的方式的某种改变。 Royall的基于模型的分析还表明，某些样本比其他样本更具代表性。为什么在这种情况下，当可能选择与已知变量平衡的立意样品时，要依靠随机样本的“平均”属性呢,当一个人考虑大多数调查、许多不同的目标人群和众多变数时，随机抽样的“平均”保护——而不是依赖于一类模型的平衡——吸引了Hansen、Madow和Tepping(1983)等大多数统计人员。随机的设计是一种防御性策略，大致的平衡可通过分层来实现。但变量的确切的平衡也具有吸引力，这是Deville和Sarndal(1992)在最近的校准工作中了解到的，校准工作在估计方面平衡，而在设计方面是不平衡的。最后，我想说关于基础的理论辩论中的一些想法现在正被吸收到实践中，尽管这在当时并未被人们预见。 47 本科生毕业论文英文原文: Recent Developments in Sample Survey Theory and their impact on Official Statistics T.M..Fred Smith University of Southampton,Department of Mathematics, Southampton,SO17 1BJ,U.K. 1.Introduction thIt is a great honour to be invited to give this lecture to commemorate the 25 anniversary ofthe IASS.In 1971 the ISI Council voted to form a new section,the IASS,and the first sessionsorganised by the IASS were at the Vienna meeting in 1973.The proceedings of the IASS have beenpublished since 1975,and we are now into edition 39 of the Survey Statistician.1975 also saw thefirst publication of Survey Methodology,while 1985 saw the launch of the Journal of Official Statistics.Survey sampling now has several major outlets for the dissemination of theoretical results and discussions of practical issues.In reviewing recent research as reflected at the IASS several themes recur throughout the entire period;censuses, sampling errors and their computation,consumer price indices,establishment and household surveys,market research,the presentation of official statistics,and non-sampling errors of all forms.There are also themes that develop in importance;edit and imputation,co-ordination of surveys,small area estimation,repeated surveys,and the use of computers.Themes that emerge include;confidentiality,computer assisted interviewing,multiple imputation,statistical indicators,time series methods,quality assurance and total survey error. A theme that declines is that of the foundations of finite population inference.It is frequently asserted that there is a divide between sample survey theory and sample survey practice. The fact that the assertion is made means that there is a problem,but I am going to argue that most good survey practice is grounded in theory.Another divide that existed in 1973 was between sample survey theory and the rest of statistical theory.My thesis is that both divisions havebeen largely closed. When in 1925 the ISI finally accepted the case for the use of representative samples in official statistics it was because the report proposed both a method for selecting representative samples,simple random sampling,and also a theory for measuring the uncertainty due to sampling.Without his framework representative sampling lacked credibility.It was difficult to extend this theory to more complex sampling schemes and the 48 本科生毕业论文 next major advance was by Neyman (1934) who changed the theoretical basis of survey inference from the hypergeometric likelihood function to sampling errors based on the randomisation distribution.From then theory and practice developed rapidly together under the leadership of people like Morris Hansen,the first president of the IASS.By the 1950s randomisation theory was almost complete and attention switched from sampling errors to non-sampling errors,again under Hansen’s leadership.The contributions during this period were based on a coherent theory developing from practical problems. In the 1950s and 60s theoreticians addressed the foundations of randomisation inference.Attempts to integrate randomisation inference into mainstream inference,for example,Godambe(1966),Basu(1971),were largely negative and this led to a search for an alternative model-based framework for survey inference.This work seemed abstract to practitioners and may have resulted in the perceived divide between theory and practice.Theoreticians,such as Ericson(1969),Scott and Smith(1969) and Royall(1970),showed that a modelling approach could be adapted to complex finite population structures and sampling schemes.For a review see,for example,Smith(1976).When we pick up the story in 1973 one of the big issues is randomisation versus model-based inference. 2.Model-based inference and randomisation inference Given the difficulty of inductive inference it is not surprising that there should be alternative approaches.At the Vienna ISI meeting Fuller(1975) proposed a set-up for the regression analysis of survey data,while Brewer and Mellor(1973) helped to clarify the issues through a dialogue between Harry,a practical survey statistician,and Fred,who is younger and more theoretically inclined.The first clarification is the recognition of the importance of defining the target population for inference.If the target is the fixed finite population from which the sample was drawn then the inferences aredescriptive.If the target is some other population,so that even a perfect census leaves inferential uncertainty,then the inference is analytic,a term introduced by Deming(1950).For analytic inference models are a necessity,but for descriptive inference there is a choice between model-based predictive inference and randomisation inference. An argument for randomisation inference is that since it does not depend on models it is robust.Smith(1994) shows that the argument lacks substance and can be explained in terms of a transfer between bias and variance.Also randomisation inference is not 49 本科生毕业论文 assumption free,it depends strongly on the normal approximation.It is easy to construct examples where the normal approximation fails,especially when the population has outliers.Cochran(1977) gives a rule for the minimum sample size necessary for the normal approximation to hold for a standardised statistic under SRS.Sugden et al (1999) extend this Gto Studentised statistics.If is Fisher’s measure of skewness then they propose that 1 2G.Outliers lead to large values of and even in large surveys the sample nG,，282511 size in domains of study may fail this condition. Royall(1976) argued that if you know the values of certain covariates in both the sample and the population then inferences should be based on samples like the one actually selected and not on the distribution of all possible samples.In Fisherian terms the sample belongs to a relevant subset.Model-based inferences condition on the covariates and the sample units selected,and Royall demonstrated empirically that model-based interval estimates could have far better conditional coverage properties than the corresponding randomisation intervals.This presented a serious challenge to advocates of randomisation inference,see Holt and Smith(1979),Rao(1985).A new approach was needed and Robinson(1987) provided it for the ratio estimator by employing the asymptotic normality of the joint distribution of the survey variable,Y, and the covariate,X,to derive the conditional distribution of Y given X,and hence a form of conditional randomisation inference.Casady and Valliant(1993) use this approach to construct conditional inferences for post-stratification.This is an area where new theory,motivated by a seemingly esoteric debate,may lead to a change in practice with regard to the way sampling errors are presented and interpreted. Royall’s model-based analysis also showed that some samples are more representative than others.In this case why rely upon the “on the average” properties of random samples when it is possible to select purposive samples balanced for the known covariates?When one considers the multiple aims of most surveys,the many different target populations and the myriad variables studied,then the case for the “on the average” protection of random sampling,rather than dependence on balance within a class of models,becomes compelling to most statisticians,see Hansen,Madow and Tepping(1983).Randomisation in design is a defensible strategy and approximate balance can be achieved by stratification.But exact balance over covariates is also appealing and this is captured in recent work on 50 本科生毕业论文 calibration,Deville and Sarndal(1992),which is balance in estimation as opposed to balance by design.I conclude that some of the ideas in the theoretical debates about foundations are now being absorbed into practice,albeit in ways not foreseen at the time. 51

                    本文档为【有关分层抽样调查方法的讨论和研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

有关分层抽样调查方法的讨论和研究

你可能还喜欢