基于链式方程的收入变量缺失值的多重插补

基于链式方程的收入变量缺失值的多重插补基于链式方程的收入变量缺失值的多重插补基于链式方程的收入变量缺失值的多重插补第26卷第1期 2009年1月统计研究 StatisticalResearch Vo1.26.No.1 Jan.2009 基于链式方程的收入变量缺失值的多重插补刘凤芹内容提要:在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题.传统的处理方法往往导致分析结果具有系统偏差.本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题.文章将此方法应用到一个实际数据集,然后通过分析插补后的数...

基于链式方程的收入变量缺失值的多重插补基于链式方程的收入变量缺失值的多重插补第26卷第1期 2009年1月统计研究 StatisticalResearch Vo1.26.No.1 Jan.2009 基于链式方程的收入变量缺失值的多重插补刘凤芹内容提要:在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题.传统的处理方法往往导致分析结果具有系统偏差.本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题.文章将此方法应用到一个实际数据集,然后通过分析插补后的数据集讨论了此方法的性质,并和其他多重插补方法进行了比较.结果表明:基于链式方程的多重插补能在一定程度上纠正推断结果的系统偏差,并且给出恰当的标准差估计. 关键词:基于链式方程的多重插补;缺失值;收入变量中图分类号:C812文献标识码:A文章编号:1002—4565(2008)12—0071—07 MultipleImputationbyChainedEquationsofMissingData intheIncomeVariables LiuFengqin Abstract:Missingdataintheincomevariablesisverycommonandisdifficulttodealwithinec onometricanalysis.This paperputsforwardmultipleimputationbychainedequationsdealswithmissingdataintheinc omevariablesandusesthismethod toanrealdataset.Theresultsshowthatmultipleimputationbychainedequationscancorrects ystematicbiasesintheinferenceto somedegreeandcangiveproperestimatedstandarderror. Keywords:Multipleimputationbychainedequations;Missingdata;Incomevariable 一 ,引言在许多经济计量分析中,收入都是关键变量. 但是收入数据非常容易缺失.比如:1997,2004年间的美国国家卫生调查(NationalHealthInterview Survey)中收入变量的缺失率处于20%一35%之间….收入数据缺失值的处理一直比较棘手,这主要是因为收入数据的缺失机制往往是非随机缺失, 诸多变量都会影响数据缺失的概率,其中有些变量甚至无法观测. 以往相关研究中,对于收入缺失值的处理可归纳为如下两类:?完全数据分析.即将有缺失值的研究记录删除,只使用没有任何缺失值的研究记录, 这种方法是大多数经济计量软件默认的方法;?单一插补.比如:均值插补,条件均值插补以及热平台 (hotdeck)插补等. 完全数据分析在缺失机制为非完全随机缺失的情况下其推断结果可能存在系统偏差,估计效率也会因样本量的大大减少而降低.使用均值,条件均值对缺失值进行单一插补往往扭曲了收入变量的真实分布,改变了收入变量和其他变量之间的关系. 热平台单一插补是以往处理收入数据缺失值最常用的方法.一个典型例子是美国普查局从1962 年开始的利用热平台插补处理"当前人口调查" (CurrentPopulationSurvey,以下简称CPS)中收人数据的缺失值.CPS调查中收入数据的缺失率介于 20%一30%之间.LeeLillard和JamesP.Smith (1986)对普查局的处理过程做了详细介绍和严格的评价,发现热平台插补严重低估了律师等多种职业的收入,同时也低估了相应家庭的平均收入. 从理论上讲,在众多方法中多重插补是最完善的方法J,但是在实践中正确地应用多重插补却并非易事,这是因为没有一个多重插补算法适用于全部缺失问题,在实践中需要对具体缺失问题提出合适的插补算法. 鉴于以往所用方法的种种缺陷,本文提出利用基于链式方程的多重插补(multipleimputationby ? 72?统计研究2009年1月 chainedequations)来处理收入变量的缺失值.文章首先阐述了如何在实际的计量分析中应用基于链式方程的多重插补方法,然后通过分析处理过的真实数据集讨论了此方法的性质.分析结果表明:基于链式方程的多重插补可以在一定程度上纠正完全数据分析的系统偏差,并且给出适当的标准差估计. 随后文章将基于链式方程的多重插补和热平台多重插补进行了比较,发现热平台多重插补严重低估了收入变量的标准差,而基于链式方程的多重插补则给出了合理的估计值.文章的最后指出本文的处理过程适用于通常计量分析中绝大部分的收入变量和数据集. 二,数据集及其收入变量的缺失机制本节首先简单介绍本文所用的数据集,然后讨论了本数据集中收入变量的缺失机制. (一)数据集本文所用的数据集来自"2004年城市家庭调查"?.此项调查在全国抽取了7个城市,分别为重庆,兰州,武汉,南昌,太原,广州,沈阳.样本量为 2107户家庭,6746个人.调查的主要内容包括收入,就业,社会保障等.家庭年收入是此项调查核心变量之一,其含义是家庭所有成员在2003年全年得到的税前收入的总和.家庭年收入的观察值为 1849户,缺失258户,缺失率为12%.家庭年收入变量是本文感兴趣的待插补变量. 除了家庭年收入变量外,本文所用数据集还包括相关的协变量.在协变量的选择上,遵循了 Rubin,D.B.(1996)所提出的原则:协变量中应该包含尽量多的与待插补变量相关的变量,特别是随后分析要用到的变量.在具体变量的选择上,参考了 David,M.,R.J.A.Little,etal(1986)利用回归插补对美国CPS调查中收入数据缺失值进行插补所用变量.具体而言,本文所用数据集包括:家庭年收入,被访家庭居住城市,家庭劳动人口年龄,教育等基本特征,家庭成员健康状况,家庭经济水平类型, 各类社会保障拥有情况,住房情况,工作者的行业分类等共计47个变量.在这47个变量中,除家庭年收入有12%的缺失率外,各类社会保障拥有情况等 10个变量均有不同程度的缺失,但是其缺失率均在 3%以下.其余36个变量没有缺失. (二)家庭年收入的缺失机制缺失数据机制描述了缺失数据与数据集中变量值之问的关系,不同学者对缺失数据机制有不同的划分.其中较为精确是将缺失数据机制划分为六种类型,它们分别是:完全随机缺失,随机缺失,取决于协变量的缺失,非随机缺失,取决于随机影响的缺失和取决于前期数据的缺失?. 为了探讨本数据集中家庭年收入的缺失机制, 下面将分析影响变量家庭年收入缺失的因素. 既然家庭年收入带有较多的缺失值,因此无法直接研究家庭年收入对其本身缺失率的影响,必须借助其他变量,被借助的变量一方面必须和家庭年收入高度相关,另一方面没有缺失或者缺失率很低. 本数据集中的家庭经济状况自评变量?符合上述条件.所以首先讨论家庭年收入缺失率和家庭经济状况自评变量之间的关系,希望能借此间接反映变量家庭年收入对其本身缺失率的影响.2004年城市家庭调查中家庭经济状况自评有5种结果:很富有,略富有,一般,困难和很困难.表1为具体的计算结果.由表1的结果可以看出:家庭年收入缺失率和家庭经济状况自评变量是相关的,呈U型关系.所谓u型关系是指"很富有"的家庭,"困难"以及"很困难"的家庭更倾向于拒绝回答或者谎报其真实收入,缺失率较高;而"一般"或者"略富有"的家庭其缺失率则相对低很多.具体结果为:"很富有"家庭的缺失率为19%,"困难"的缺失率为l7%,"很困难"家庭的缺失率为22%.而"略富有"或者"一般" 的家庭的缺失率仅为6%和4%.此结论与Lee Lillard和JamesP.Smith(1986)利用CPS调查数据所得结论是一致的. 导致此u型关系的原因如下:高收入家庭由于害怕调查收入作为纳税的依据,或者不愿意露富等原因而拒绝回答具体的收入数字,从而导致高的缺失率.低收入群体具有较高缺失率是出于以下两种情况:一部分处于贫困线边缘的低收入群体害怕失去以家计调查为基础的社会救助金(比如:低保金), 因此拒绝给出真实的收人数字,特别是当家庭有隐性收入时;另外,部分低收入群体由于长期与正规劳 ?本调查由民政部最低生活保障司和北京师范大学于2004 年共同进行. ?参见金勇进,邵军着《缺失数据的统计处理》,中国统计出版社即将出版. ?问卷中的问题为:鉴于您的家庭收入和负担,您认为您家属于以下哪种情况?1.很富有;2.富有;3.一般;4.困难;5.很困难. 第26卷第1期刘凤芹:基于链式方程的收入变量缺失值的多重插补?73? 动部门脱轨,对于问卷中大量的关于工作,社会保障等问题没有兴趣,所以容易拒绝回答"收入"等需要仔细回忆的问题. 表1家庭年收入缺失率和家庭经济状况自评变量之间的关系家庭经济状况l很富有i略富有[一般l困难l很困难下面我们进一步来看一下家庭年收入的缺失率和家庭养老保险拥有人数之间的关系,具体结果见表2. 表2家庭年收入缺失率和家庭养老保险拥有人数之间的关系不同家庭家庭年收入缺失家庭的家庭年收入没有缺失家庭规模平均养老保险拥有人数的平均养老保险拥有人数 2人家庭0.391.41 3人家庭0.451.O6 4人家庭O.561.43 由表2可以看出,在所有家庭规模下,家庭年收入缺失家庭的平均养老保险拥有人数均显着低于没有缺失的家庭,存在系统偏差.这说明,如果在有关计量分析中简单的将家庭年收入缺失的家庭去掉, 其推断结果必然存在系统偏差,比如:会高估养老保险拥有率. 通过上述分析,可以发现家庭年收入的缺失机制受包括其本身在内的诸多变量的影响,为非随机缺失.在此情况下,简单将缺失记录删除的做法很可能导致系统偏差. 三,基于链式方程的多重插补本节首先阐明了基于链式方程的多重插补的原理,然后讨论了此原理在家庭年收入缺失值插补中的具体实现. (一)基于链式方程的多重插补的原理多重插补是处理缺失值时最常用的方法之一. 其基本思路是对每一个缺失值给出m个插补值,形成m个完整数据集;然后利用标准的计量分析方法分别分析这m个数据集,得到m个结果;最后将这 m个结果按照一定的规则综合起来形成最终所要的结果.多重插补的关键是如何获得合适的插补值.根据获得插补值的不同方法形成了不同的多重插补算法. 基于链式方程的多重插补方法最初由H.C. Boshuizen和D.L.Knook(1999)提出并应用于生存分析中.此方法与其他多重插补算法的本质区别是此方法在进行插补时不必考虑被插补变量和协变量的联合分布,而是利用单个变量的条件分布逐一进行插补.此特点非常适用收入变量缺失值的插补, 因为收入变量以及协变量的分布较为复杂,给出它们的联合分布几乎是一件不可能的事情.S.Van Buuren,J.P.L.Brand和C.G.M.Groothuis.Oudshoom, eta1(2006)的研究表明此方法在实际使用中有较好的表现. 链式方程是一个形象的称谓,实际上具体算法由一系列回归模型组成,这些回归模型刻画了被插补变量和协变量的条件分布,条件分布可以是多种类型.具体而言,其算法如下: 记:X为无缺失变量集,y,y2,…,为k个带缺失值的变量.对y】,y2,…,的插补过程一共需进行n轮循环,n一般取l0,50之间的整数.在第一轮循环中,首先做y在上的回归,并根据此回归对的缺失值进行插补.插补时应该遵循多重插补的原理进行插补,即同时考虑模型参数的随机变异性和模型残差的随机变异性;然后做y,在 y(包括插补的值)和上的回归,并根据此回归对 y2的缺失值进行插补;如此进行下去,直到最后做在y一,一,x上的回归,并根据此回归对的缺失值进行插补.第2到第n轮的插补将遵循第一轮的过程,不同的是此时每个回归包括除去本变量之外的其他全部变量,每一轮循环应该利用最新的插补值.n轮循环全部结束后,取第/7,轮的插补结果作为最终结果,形成一个完整数据集.为了得到m个数据集,则需要将上面的n轮循环独立进行m次. (二)在家庭年收入缺失值插补中的具体实现利用基于链式方程的多重插补方法处理家庭年收入缺失值时主要需要考虑三个关键之处:(1)对每一个需要进行插补的变量给出合适的插补模型;(2) 确定m,n的值;(3)利用适当的软件实现上述算法. 1.插补模型. 首先讨论家庭年收入的插补模型,本文首先对家庭年收入做对数变换使其基本服从正态分布,然后使用正态线性回归模型作为对数家庭年收入的插补模型.在进行插补前,应该在完全数据集(即删除带有缺失值的记录,只包括没有任何缺失值记录的数据集)上先试运行此模型,查看模型拟合的调整 ? 74?统计研究2009年1月 R.在建立插补模型时需要清楚的是:应该关注插补模型捕捉到被插补变量的真实分布特征的能力及其正确反映被插补变量与其他变量之间关系的能力. 其次对于协变量的插补模型,重要的是根据被插补变量的类型选择适当的回归模型.以变量"月工作时间总量"和"是否拥有第二套房子"为例来说明:"工作时间总量"为计数型变量,所以其插补模型应该使用poisson回归;"是否拥有第二套房子"是二分变量,所以其插补模型应该使用logistic回归. 2.m,n值的确定. m的值表示在多重插补中,对每一个缺失值给出的插补值的数量.n的值表示在基于链式方程的多重插补方法中,为了得到恰当的插补值,算法需要的循环次数.对于m的确定,Schafer(1997)中有详细的讨论,一般认为缺失的信息越多,m应该越大, 但是通常情况下m的值取5已经足够.对于n的值,Schafer(1997),S.VanBuuren,J.P.L.Brand,以及 C.G.M.Groothuis—Oudshoom,etal(2006)有所讨论, 认为对于大型数据集n应该介于l0,50之间.本文取m等于5,n等于50. 3.利用软件实现算法. 有多个软件可以实现基于链式方程的多重插补,比如:Stata,R等.本文利用Stata的ICE模块来实现.此模块由Royston,P.(2004)给出.正确使用ICE模块的关键是在进行插补前查看默认的插补模型是否正确,根据作者使用此模块的经验,对于分类变量,定序变量等非连续变量此模块默认的插补模型往往是错误的. 四,对插补后数据集的分析本节通过对插补后数据集进行简单计量分析, 讨论了基于链式方程多重插补的性质. (一)多重插补数据的分析方法本小节将简单介绍如何分析多重插补数据,关于这方面的详细介绍可以参考Schafer(1997). 假定有m个插补后的完整数据集(本文m等于5),记Q为感兴趣的总体参数.对每个完整数据集应用标准的计量分析方法得到相应的Q的估计和估计标准差,分别记为: 0z,z=1,2,…,m;Uf,z=1,2,…,m.那么最终Q的估计为: 0=m?0;f=1 此点估计的标准差为: Tm=+[(m+1)/m]B 其中=mU,B=(m一1)(0 l:1f: 一 ). 估计量多=[(m+1)/m]曰/描述了关于Q 信息的缺失比率. (二)家庭人均收入水平与家庭享有养老保险人数之间的关系首先将插补后的家庭年收入除以家庭规模得到家庭人均收入,然后按照人均收入与2003年当地城镇贫困线的比率将被调查家庭分为四个层次:低于贫困线;介于贫困线和2倍贫困线之间;介于2倍贫困线和4倍贫困线之间;4倍贫困线以上.另外,由于家庭中养老保险拥有人数和家庭规模有关,所以在不影响分析目的的情况下,笔者将家庭规模限定为3口人.表3给出了不同收入层次的家庭平均每户享有养老保险人数的点估计以及估计的标准差. 笔者感兴趣的问题是:完全数据(即删除带有缺失值的记录,只包括没有任何缺失值记录的数据集)的分析结果与多重插补后数据的分析结果有什么异同, 以及导致不同的原因. 表3家庭人均收入水平与家庭享有养老保险人数之间的关系家庭人均完全数据利用基于链式方程的多重插缺失收入与贫分析结果补处理后的数据集的结果信息困线的比率点估计估计的标准误差点估计估计的标准误差比率 <1O.770.79O.70O.78O.1O [1,2)1.250.891.23O-880.O2 [2,4)1.48O.921.450.9OO.O3 ?41.360.9l1.27O.9OO.08 由表3可以看出,两者点估计有显着差别.对于所有收入水平,完全数据分析的点估计均高于插补后数据的点估计.表2可以帮助解释其中的原因,根据表2的结果,家庭年收入缺失家庭的平均养老保险拥有人数显着低于收入数据不缺失家庭的平均养老保险拥有人数,对于3口之家,其值分别为 0.45和1.06.这表明:简单将含有缺失值的记录删除的完全数据分析导致了对家庭平均养老保险拥有人数的高估,而基于链式方程的多重插补则在一定程度上纠正了此偏差.此外,两种分析所显示的家第26卷第1期刘凤芹:基于链式方程的收入变量缺失值的多重插补?75? 庭人均收人水平和家庭享有养老保险人数之间的关系是一致的,即当比率小于4时,两者呈正相关关系.但是对于比率大于等于4的家庭其每户平均享有养老保险人数不及比率处在2,4之间的家庭高. 对于点估计的标准差,完全数据分析的结果均大于插补后数据的结果.这说明插补提高了点估计的精度.这是因为多重插补在插补时利用了额外的信息,其结果当然会更加精确.但是需要注意此结论成立的前提假定是两个数据集的分析结果都是无偏的. 表3同时还给出了缺失信息率估计,其估计值处于0.02,0.10之间.缺失信息率的大小和缺失率的大小,被估计的量等因素相关.结合表1和表 3可以看到,对于低收入家庭和高收入家庭其缺失率和缺失信息率均高于中等收入家庭. (三)家庭人均收入水平与健康之间关系的 Logistic回归分析本小节通过分析一个关于健康影响因素的 Logistic回归来讨论基于链式方程多重插补的一些性质.家庭人均收入水平的定义同4.2节.健康为一个二分变量,0表示健康,1表示不健康,其他的协变量以及具体模型结果见表4.表4呈现了如下三个有意思的结果.首先,基于插补后数据集得到的家庭人均收入水平变量的各个层次的系数均比基于完全数据集所得的结果大.其主要原因是健康状况糟糕的被访者通常更不愿意回答问题,而这部分人属于低收入群体的可能性比起属于高收入群体的可能性更大一些.因此使得即使限定在低收人这个群体内部,其缺失机制仍然受健康状况的影响,不健康者更不愿意或者没有能力认真填写问卷.这使得仅仅利用完全数据会低估低收人群体的不健康发生的频率,此偏差Logistic回归中就表现在参数估计值比真实值偏小.而利用插补后数据得到的结果比完全数据分析的结果偏大,说明基于链式方程的多重插补在一定程度上纠正了此系统偏差.表5的数据分析结果也验证了上述偏差的存在.如表5所示,在支出超过收入很多的群体中,家庭年收入缺失的被访者其不健康的发生率为0.47,高出收入数据不缺失被访者近10个百分点. 其次,表4显示除了家庭人均收入水平,其他的变量的缺失信息率均接近0.这说明家庭年收入的较高缺失率并没有影响其他变量系数的信息缺失. 表4家庭人均收入水平与健康之间关系的Logistic回归分析完全数据的利用基于链式方程的分析结果多重插补处理后的缺失变量数据集的结果信息参数估计的参数估计的蛊估计标准差估计标准差常数一1.O20.080—0.980.065O.1oo 家庭人均收人与贫困线的比率 <12.320.0642.91O.06o0.17l [1,2)1.550.0572.040.0510.O6o [2,4)O.9l0.053O.920.0490.055 ?4(参照类) 年龄 <35一2.78O.O72—2-810.O65O .00136 — 45—2.1O0.076—2.080.068 46—55一1.330.057—1.670.0570.003 56—65一O.650.072—0.760.0690.010 0.o09 >65(参照类)—0.09O.O81—0.230.079 性别男性女性(参照类)O.020.030O.O30.0180.O04 工作状态工作不工作(参照类)0.O50.0400.o60.0450.0o5 家庭中需要照顾的0. 790.0900.790.87l0.oo7人数婚姻状况已婚O.0lO.O31O.O10.030O.0o2 再婚一0.()70.089一O.O6O.O9O0.0o8 离婚—0.05O.O58—0.04O.O5O0.017 丧偶—0.090.083一O.o90.0800.019 未婚(参照类) 是否吸烟是否(参照类)O.180.0900.190.078O.o34 表5低收入群体中家庭年收入缺失与健康之间的关系家庭年收入缺失被访者家庭年收入不缺失被访收支结余状况中不健康发生的频率者中不健康发生的频率支出超过收入很多0.47O.38 支出略超出收入O.36O.3O 最后,表4显示对于大部分变量,多重插补数据的估计标准差要小于完全数据分析的估计标准差. 这主要是因为多重插补数据样本量大于插补前的数据,从而提高了估计精度.但是并不是所有情况下, 多重插补后标准差的估计值都小于完全数据分析的估计值.这是因为插补前后数据的估计标准差受多方面因素的影响.插补前数据的估计标准差受到缺失率,缺失机制,待估计参数,变量真实变异性等因素的影响,而其中的缺失机制,变量真实变异性等因 ? 76?统计研究2009年1月素都无法准确确定.插补后数据的估计标准差主要来源于变量变异性和缺失数据本身的不确定性. 五,多重插补的比较之所以选择热平台多重插补做比较主要基于如下两点原因:首先,热平台插补是一种非参数方法, 不需要设定任何模型.这一点与基于链式方程的多重插补具有本质的不同;其次,热平台插补是一种常用的方法.特别是处理收入变量的缺失值,实际统计调查部门和学术研究都曾多次用到此方法. 为了能够有客观的比较标准,此处只利用家庭年收入没有缺失的数据.缺失数据由模拟产生,其缺失机制依据现实的家庭年收入数据的缺失机制产生.具体为:如果家庭人均收入与当地贫困线的比率小于等于1,则缺失概率为60%;如果比率大于1 并小于等于2,则缺失概率为40%;如果比率大于2 并小于等于4,则缺失概率为20%;如果比率大于4, 则缺失概率为40%;总的缺失率在35%左右.同时为了确保结果呈现的两种方法之间的差别为本质的,系统差别,并非是随机误差造成的,笔者依据上述缺失机制产生1000个待处理的数据集,分别利用这两种方法进行处理,然后对处理过的数据集进行分析.这样每一个感兴趣的参数估计将得到两组结果,每组分别含1000个结果.表6和表7的数值是这1000个结果的平均值. 【一)热平台插补热平台插补是一种非参数方法,其基本思想是: 如果第i条记录的变量,缺失,那么其插补值是从相匹配记录魁的观察值中随机抽取的.如何为缺失值寻找相匹配的记录是热平台插补的关键,依据不同具体数据集而设计 .热平台插补的优点是不需要给出有关被插补变量及协变量的任何分布,结果比较稳健.其缺点是当很多记录都存在缺失值时, 此方法的结果不够理想. 虽然家庭年收入的插补是笔者真正感兴趣的, 但是本文所用数据中还有其他1O个相关变量有不同程度的缺失(详见本文2.1节).为了更好的利用热平台方法,笔者首先对这10个非收入数据的缺失值进行了热平台插补,然后再对家庭年收入进行热平台插补.由于篇幅所限,此处只对家庭年收入的热平台插补过程做详细介绍. 对于家庭年收入的每一个缺失值,本文分别设定由细到简三个水平的匹配原则.第一水平的匹配原则由如下协变量构成:居住城市(7类),家庭劳动人口平均年龄类型(3类),家庭劳动人口最高教育 (3类),住房类型(5类),住房的价值(5类),人均住房面积(3类),日常消费类型(6类),工作者的行业分类(7类),月工作总时间(4类)以及收入(4类). 第二水平的匹配原则由如下协变量构成:居住城市 (7类),家庭劳动人口平均年龄类型(3类),家庭劳动人口最高教育(2类),日常消费类型(2类),工作者的行业分类(3类),月工作总时间(2类)以及收入 (2类).第三水平的匹配原则由如下协变量构成: 居住城市(7类),家庭劳动人口平均年龄类型(2 类),家庭劳动人口最高教育(2类),日常消费类型 (2类).家庭年收入缺失值的插补值将首先按照第一水平匹配原则来寻找,如果没有找到相匹配的记录则进入第二水平,如果仍然没有找到则进入第三水平.本文利用Stata软件的hotdeek模块实现热平台插补. (二)比较结果表6给出了真实的家庭年收入,基于链式方程多重插补处理后的家庭年收入,热平台多重插补处理后的家庭年收入的均值,标准差.通过三者比较可以发现如下有意思的结果:首先,热平台多重插补严重低估了标准差.这主要是因为低收入家庭和高收入家庭的缺失率均高于中等收入家庭,从而使得部分低收入家庭和高收入家庭的热平台插补值来自中等收入家庭,这导致了家庭年收入的分布向中等家庭年收入集中,故呈现出标准差偏低的系统偏差. 实际上,经由合适的多重插补算法处理过变量的标准差的估计值应该略大于其真实值,因为多重插补考虑了缺失值本身的不确定性.其次,两种插补方法估计的均值均高于真实的均值,但是热平台插补的偏差更大一些.基于链式方程多重插补的偏差为 1003元,而热平台插补的偏差为2920元. 表7给出了家庭人均收入水平与家庭养老保险拥有人数的关系,结果一共为三组,分别为利用真实数据得到的结果;利用基于链式方程的多重插补处理后的数据集的结果;利用热平台多重插补处理后的数据集的结果. 表7显示出了如下两点有意思的结果:首先,对于家庭人均收入与贫困线的比率<1和?4的情形, 两种方法均给出非常近似的估计.但是对于比率处第26卷第1期刘凤芹:基于链式方程的收入变量缺失值的多重插补?77? 于[1,2)和[2,4)的情形,热平台插补的估计明显偏低,这可能是因为热平台插补在插补过程中将部分比率<1的家庭赋予略高的年收人,从而将其错误的划为比率为[1,2)的一组,导致了这一组家庭拥有养老保险人数估计的偏低.至于比率处于[2,4)组的偏低结果,也出于类似的原因.其次,两种方法给出了很接近的估计标准差.均大于真实数据的标准差,这是因为多重插补方法考虑了缺失数据本身的不确定性. 表6不同方法处理数据的均值与标准差真实数据利用基于链式方程利用热平台多重的多重插补处理后插补处理后的的结果的数据集的结果数据集的结果均值标准差均值f标准差均值I标准差 21O972498722100』2590424017J18109 表7家庭人均收入水平与家庭中享有养老保险人数的关系家庭人真实数据利用基于链式方程利用热平台多重均收入的结果的多重插补处理后插补处理后的与贫困的数据集的结果数据集的结果线的点估估计的估计的估计的比率点估计点估计计标准差标准差标准差 <1O.770.790.740.980.720.90 [1,2)1.250.891.141.040.901.1O [2,4)1.48O.921.331.321.121.27 ?41.36O.911.241.1l1.211.2O 六,结论对比完全数据的分析结果和基于链式方程多重插补处理后数据集的分析结果可以发现:基于链式方程的多重插补可以在一定程度上纠正估计结果的系统偏差,并且给出适当的标准差估计.与热平台多重插补的比较结果表明:基于链式方程的多重插补能够克服热平台多重插补低估标准差的缺陷.此外,与其他多重插补方法不同,基于链式方程的多重插补不需要给出被插补变量及其协变量的联合分布,只需要给出单个变量的条件分布.这一特点非常适合数据类型,结构都较为复杂的大型调查. 实际上,基于链式方程的多重插补适用于通常计量分析中绝大部分的收人变量和数据集.除了本文所举的家庭年收入的例子,基于链式方程的多重插补还可以处理像工资收入,农民工打工收入等其他类型的收人变量,其协变量根据具体的数据集和将要做的计量分析而确定. 参考文献 [1]NathanielSCHENKER,TrivelloreE.RAGHUNATHAN,andPeiLu CHIU,etalMultipleImputationofMissingIncomeDataintheNational HealthInterviewSu~ey[J].JournaloftheAmericanStatistical Association,2006(9):924—933. [2]Little,R.J.A.,andRubin,D.B.StatisticalAnalysisWithMissing Data[M].NewYork:Wiley,2002. [3]LeeLillardandJamesP.Smith.WhatDoWeReallyKnowabout Wages?TheImportanceofNonreportingandCensusImputation[J]. TheJournalofPoliticalEconomy,1986(7):489—506. [4]Rubin,D.B.MultipleImputationAfter18+Years[J].Journalofthe AmericanStatisticalAssociation,1996(6),473—489. 15jDavid,M.R.,andJ.A.LittleAlternativeMethodsofCPSIncome Imputation[JJ.JournaloftheAmericanStatisticalAssociation,1986 (6):29—41. [6]D.B.RubinInferenceandMissingdata.Biometrika,1976(12),581— 592 17]H.C.Boshuizen,andD.L.Knook.MultipleImputationofMissing BloodPressureCovariatesinSurvivalAn02ysis[Jj.Statisticsin Medicine,1999(7):681—694. 18]S.VanBuuren,J.P.L.Brand,andC.G.M.Groothuis-Oudshoorn, eta1.FullyConditionalSpecificationinMultivariateImputation[J]. Journalofstatisticalcomputationandsimulation,2006(12):1049— 1O64. f9]Sehafer,J.L.AnalysisofIncompleteMultivariateData[M].New York:ChapmanandHall,1997. [10]Royston,P.MultipleImputationofMissingValues[J].TheStata Journal,2004(4):227—241. 作者简介刘凤芹,女,33岁,山东昌邑人,2004年毕业于中国人民大学统计学院,获经济学博士学位,现为北京师范大学社会发展与公共政策学院讲师,硕士生导师,研究方向为应用统计分析,社会保障. (责任编辑:赵曾琪)

                    本文档为【基于链式方程的收入变量缺失值的多重插补】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于链式方程的收入变量缺失值的多重插补

你可能还喜欢