首页 基于链式方程的收入变量缺失值的多重插补

基于链式方程的收入变量缺失值的多重插补

举报
开通vip

基于链式方程的收入变量缺失值的多重插补基于链式方程的收入变量缺失值的多重插补 基于链式方程的收入变量缺失值的多重插 补 第26卷第1期 2009年1月 统计研究 StatisticalResearch Vo1.26.No.1 Jan.2009 基于链式方程的收入变量缺失值的多重插补 刘凤芹 内容提要:在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题.传统的处理方法往往导致 分析结果具有系统偏差.本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题.文章将此 方法应用到一个实际数据集,然后通过分析插补后的数...

基于链式方程的收入变量缺失值的多重插补
基于链式方程的收入变量缺失值的多重插补 基于链式方程的收入变量缺失值的多重插 补 第26卷第1期 2009年1月 统计研究 StatisticalResearch Vo1.26.No.1 Jan.2009 基于链式方程的收入变量缺失值的多重插补 刘凤芹 内容提要:在经济计量 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 中收入变量的缺失值是一个普遍而又较难处理的问题.传统的处理方法往往导致 分析结果具有系统偏差.本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题.文章将此 方法应用到一个实际数据集,然后通过分析插补后的数据集讨论了此方法的性质,并和其他多重插补方法进行了 比较.结果 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 明:基于链式方程的多重插补能在一定程度上纠正推断结果的系统偏差,并且给出恰当的标准差估 计. 关键词:基于链式方程的多重插补;缺失值;收入变量 中图分类号:C812文献标识码:A文章编号:1002—4565(2008)12—0071—07 MultipleImputationbyChainedEquationsofMissingData intheIncomeVariables LiuFengqin Abstract:Missingdataintheincomevariablesisverycommonandisdifficulttodealwithinec onometricanalysis.This paperputsforwardmultipleimputationbychainedequationsdealswithmissingdataintheinc omevariablesandusesthismethod toanrealdataset.Theresultsshowthatmultipleimputationbychainedequationscancorrects ystematicbiasesintheinferenceto somedegreeandcangiveproperestimatedstandarderror. Keywords:Multipleimputationbychainedequations;Missingdata;Incomevariable 一 ,引言 在许多经济计量分析中,收入都是关键变量. 但是收入数据非常容易缺失.比如:1997,2004年 间的美国国家卫生调查(NationalHealthInterview Survey)中收入变量的缺失率处于20%一35%之 间….收入数据缺失值的处理一直比较棘手,这主 要是因为收入数据的缺失机制往往是非随机缺失, 诸多变量都会影响数据缺失的概率,其中有些变量 甚至无法观测. 以往相关研究中,对于收入缺失值的处理可归 纳为如下两类:?完全数据分析.即将有缺失值的 研究记录删除,只使用没有任何缺失值的研究记录, 这种方法是大多数经济计量软件默认的方法;?单 一 插补.比如:均值插补,条件均值插补以及热平台 (hotdeck)插补等. 完全数据分析在缺失机制为非完全随机缺失的 情况下其推断结果可能存在系统偏差,估计效率也 会因样本量的大大减少而降低.使用均值,条件均 值对缺失值进行单一插补往往扭曲了收入变量的真 实分布,改变了收入变量和其他变量之间的关系. 热平台单一插补是以往处理收入数据缺失值最 常用的方法.一个典型例子是美国普查局从1962 年开始的利用热平台插补处理"当前人口调查" (CurrentPopulationSurvey,以下简称CPS)中收人数 据的缺失值.CPS调查中收入数据的缺失率介于 20%一30%之间.LeeLillard和JamesP.Smith (1986)对普查局的处理过程做了详细介绍和严格的 评价,发现热平台插补严重低估了律师等多种职业 的收入,同时也低估了相应家庭的平均收入. 从理论上讲,在众多方法中多重插补是最完善 的方法J,但是在实践中正确地应用多重插补却并 非易事,这是因为没有一个多重插补算法适用于全 部缺失问题,在实践中需要对具体缺失问题提出合 适的插补算法. 鉴于以往所用方法的种种缺陷,本文提出利用 基于链式方程的多重插补(multipleimputationby ? 72?统计研究2009年1月 chainedequations)来处理收入变量的缺失值.文章 首先阐述了如何在实际的计量分析中应用基于链式 方程的多重插补方法,然后通过分析处理过的真实 数据集讨论了此方法的性质.分析结果表明:基于 链式方程的多重插补可以在一定程度上纠正完全数 据分析的系统偏差,并且给出适当的标准差估计. 随后文章将基于链式方程的多重插补和热平台多重 插补进行了比较,发现热平台多重插补严重低估了 收入变量的标准差,而基于链式方程的多重插补则 给出了合理的估计值.文章的最后指出本文的处理 过程适用于通常计量分析中绝大部分的收入变量和 数据集. 二,数据集及其收入变量的缺失机制 本节首先简单介绍本文所用的数据集,然后讨 论了本数据集中收入变量的缺失机制. (一)数据集 本文所用的数据集来自"2004年城市家庭调 查"?.此项调查在全国抽取了7个城市,分别为重 庆,兰州,武汉,南昌,太原,广州,沈阳.样本量为 2107户家庭,6746个人.调查的主要内容包括收 入,就业,社会保障等.家庭年收入是此项调查核心 变量之一,其含义是家庭所有成员在2003年全年得 到的税前收入的总和.家庭年收入的观察值为 1849户,缺失258户,缺失率为12%.家庭年收入 变量是本文感兴趣的待插补变量. 除了家庭年收入变量外,本文所用数据集还包 括相关的协变量.在协变量的选择上,遵循了 Rubin,D.B.(1996)所提出的原则:协变量中应该包 含尽量多的与待插补变量相关的变量,特别是随后 分析要用到的变量.在具体变量的选择上,参考了 David,M.,R.J.A.Little,etal(1986)利用回归插补 对美国CPS调查中收入数据缺失值进行插补所用 变量.具体而言,本文所用数据集包括:家庭年收 入,被访家庭居住城市,家庭劳动人口年龄,教育等 基本特征,家庭成员健康状况,家庭经济水平类型, 各类社会保障拥有情况,住房情况,工作者的行业分 类等共计47个变量.在这47个变量中,除家庭年 收入有12%的缺失率外,各类社会保障拥有情况等 10个变量均有不同程度的缺失,但是其缺失率均在 3%以下.其余36个变量没有缺失. (二)家庭年收入的缺失机制 缺失数据机制描述了缺失数据与数据集中变量 值之问的关系,不同学者对缺失数据机制有不同的 划分.其中较为精确是将缺失数据机制划分为六种 类型,它们分别是:完全随机缺失,随机缺失,取决于 协变量的缺失,非随机缺失,取决于随机影响的缺失 和取决于前期数据的缺失?. 为了探讨本数据集中家庭年收入的缺失机制, 下面将分析影响变量家庭年收入缺失的因素. 既然家庭年收入带有较多的缺失值,因此无法 直接研究家庭年收入对其本身缺失率的影响,必须 借助其他变量,被借助的变量一方面必须和家庭年 收入高度相关,另一方面没有缺失或者缺失率很低. 本数据集中的家庭经济状况自评变量?符合上述 条件.所以首先讨论家庭年收入缺失率和家庭经济 状况自评变量之间的关系,希望能借此间接反映变 量家庭年收入对其本身缺失率的影响.2004年城 市家庭调查中家庭经济状况自评有5种结果:很富 有,略富有,一般,困难和很困难.表1为具体的计 算结果.由表1的结果可以看出:家庭年收入缺失 率和家庭经济状况自评变量是相关的,呈U型关 系.所谓u型关系是指"很富有"的家庭,"困难"以 及"很困难"的家庭更倾向于拒绝回答或者谎报其真 实收入,缺失率较高;而"一般"或者"略富有"的家庭 其缺失率则相对低很多.具体结果为:"很富有"家 庭的缺失率为19%,"困难"的缺失率为l7%,"很困 难"家庭的缺失率为22%.而"略富有"或者"一般" 的家庭的缺失率仅为6%和4%.此结论与Lee Lillard和JamesP.Smith(1986)利用CPS调查数据所 得结论是一致的. 导致此u型关系的原因如下:高收入家庭由于 害怕调查收入作为纳税的依据,或者不愿意露富等 原因而拒绝回答具体的收入数字,从而导致高的缺 失率.低收入群体具有较高缺失率是出于以下两种 情况:一部分处于贫困线边缘的低收入群体害怕失 去以家计调查为基础的社会救助金(比如:低保金), 因此拒绝给出真实的收人数字,特别是当家庭有隐 性收入时;另外,部分低收入群体由于长期与正规劳 ?本调查由民政部最低生活保障司和北京师范大学于2004 年共同进行. ?参见金勇进,邵军着《缺失数据的统计处理》,中国统计出版 社即将出版. ?问卷中的问题为:鉴于您的家庭收入和负担,您认为您家属 于以下哪种情况?1.很富有;2.富有;3.一般;4.困难;5.很困难. 第26卷第1期刘凤芹:基于链式方程的收入变量缺失值的多重插补?73? 动部门脱轨,对于问卷中大量的关于工作,社会保障 等问题没有兴趣,所以容易拒绝回答"收入"等需要 仔细回忆的问题. 表1家庭年收入缺失率和家庭经济状况 自评变量之间的关系 家庭经济状况l很富有i略富有[一般l困难l很困难 下面我们进一步来看一下家庭年收入的缺失率 和家庭养老保险拥有人数之间的关系,具体结果见 表2. 表2家庭年收入缺失率和家庭养老保险 拥有人数之间的关系 不同家庭家庭年收入缺失家庭的家庭年收入没有缺失家庭 规模平均养老保险拥有人数的平均养老保险拥有人数 2人家庭0.391.41 3人家庭0.451.O6 4人家庭O.561.43 由表2可以看出,在所有家庭规模下,家庭年收 入缺失家庭的平均养老保险拥有人数均显着低于没 有缺失的家庭,存在系统偏差.这说明,如果在有关 计量分析中简单的将家庭年收入缺失的家庭去掉, 其推断结果必然存在系统偏差,比如:会高估养老保 险拥有率. 通过上述分析,可以发现家庭年收入的缺失机 制受包括其本身在内的诸多变量的影响,为非随机 缺失.在此情况下,简单将缺失记录删除的做法很 可能导致系统偏差. 三,基于链式方程的多重插补 本节首先阐明了基于链式方程的多重插补的原 理,然后讨论了此原理在家庭年收入缺失值插补中 的具体实现. (一)基于链式方程的多重插补的原理 多重插补是处理缺失值时最常用的方法之一. 其基本思路是对每一个缺失值给出m个插补值,形 成m个完整数据集;然后利用标准的计量分析方法 分别分析这m个数据集,得到m个结果;最后将这 m个结果按照一定的规则综合起来形成最终所要 的结果.多重插补的关键是如何获得合适的插补 值.根据获得插补值的不同方法形成了不同的多重 插补算法. 基于链式方程的多重插补方法最初由H.C. Boshuizen和D.L.Knook(1999)提出并应用于生存 分析中.此方法与其他多重插补算法的本质区别是 此方法在进行插补时不必考虑被插补变量和协变量 的联合分布,而是利用单个变量的条件分布逐一进 行插补.此特点非常适用收入变量缺失值的插补, 因为收入变量以及协变量的分布较为复杂,给出它 们的联合分布几乎是一件不可能的事情.S.Van Buuren,J.P.L.Brand和C.G.M.Groothuis.Oudshoom, eta1(2006)的研究表明此方法在实际使用中有较好 的表现. 链式方程是一个形象的称谓,实际上具体算法 由一系列回归模型组成,这些回归模型刻画了被插 补变量和协变量的条件分布,条件分布可以是多种 类型.具体而言,其算法如下: 记:X为无缺失变量集,y,y2,…,为k个带 缺失值的变量.对y】,y2,…,的插补过程一共 需进行n轮循环,n一般取l0,50之间的整数.在 第一轮循环中,首先做y在上的回归,并根据此 回归对的缺失值进行插补.插补时应该遵循多 重插补的原理进行插补,即同时考虑模型参数的随 机变异性和模型残差的随机变异性;然后做y,在 y(包括插补的值)和上的回归,并根据此回归对 y2的缺失值进行插补;如此进行下去,直到最后做 在y一,一,x上的回归,并根据此回归对 的缺失值进行插补.第2到第n轮的插补将遵循 第一轮的过程,不同的是此时每个回归包括除去本 变量之外的其他全部变量,每一轮循环应该利用最 新的插补值.n轮循环全部结束后,取第/7,轮的插 补结果作为最终结果,形成一个完整数据集.为了 得到m个数据集,则需要将上面的n轮循环独立进 行m次. (二)在家庭年收入缺失值插补中的具体实现 利用基于链式方程的多重插补方法处理家庭年 收入缺失值时主要需要考虑三个关键之处:(1)对每 一 个需要进行插补的变量给出合适的插补模型;(2) 确定m,n的值;(3)利用适当的软件实现上述算法. 1.插补模型. 首先讨论家庭年收入的插补模型,本文首先对 家庭年收入做对数变换使其基本服从正态分布,然 后使用正态线性回归模型作为对数家庭年收入的插 补模型.在进行插补前,应该在完全数据集(即删除 带有缺失值的记录,只包括没有任何缺失值记录的 数据集)上先试运行此模型,查看模型拟合的调整 ? 74?统计研究2009年1月 R.在建立插补模型时需要清楚的是:应该关注插 补模型捕捉到被插补变量的真实分布特征的能力及 其正确反映被插补变量与其他变量之间关系的能 力. 其次对于协变量的插补模型,重要的是根据被 插补变量的类型选择适当的回归模型.以变量"月 工作时间总量"和"是否拥有第二套房子"为例来说 明:"工作时间总量"为计数型变量,所以其插补模型 应该使用poisson回归;"是否拥有第二套房子"是二 分变量,所以其插补模型应该使用logistic回归. 2.m,n值的确定. m的值表示在多重插补中,对每一个缺失值给 出的插补值的数量.n的值表示在基于链式方程的 多重插补方法中,为了得到恰当的插补值,算法需要 的循环次数.对于m的确定,Schafer(1997)中有详 细的讨论,一般认为缺失的信息越多,m应该越大, 但是通常情况下m的值取5已经足够.对于n的 值,Schafer(1997),S.VanBuuren,J.P.L.Brand,以及 C.G.M.Groothuis—Oudshoom,etal(2006)有所讨论, 认为对于大型数据集n应该介于l0,50之间.本 文取m等于5,n等于50. 3.利用软件实现算法. 有多个软件可以实现基于链式方程的多重插 补,比如:Stata,R等.本文利用Stata的ICE模块来 实现.此模块由Royston,P.(2004)给出.正确使 用ICE模块的关键是在进行插补前查看默认的插补 模型是否正确,根据作者使用此模块的经验,对于分 类变量,定序变量等非连续变量此模块默认的插补 模型往往是错误的. 四,对插补后数据集的分析 本节通过对插补后数据集进行简单计量分析, 讨论了基于链式方程多重插补的性质. (一)多重插补数据的分析方法 本小节将简单介绍如何分析多重插补数据,关 于这方面的详细介绍可以参考Schafer(1997). 假定有m个插补后的完整数据集(本文m等 于5),记Q为感兴趣的总体参数.对每个完整数据 集应用标准的计量分析方法得到相应的Q的估计 和估计标准差,分别记为: 0z,z=1,2,…,m;Uf,z=1,2,…,m.那么最 终Q的估计为: 0=m?0;f=1 此点估计的标准差为: Tm=+[(m+1)/m]B 其中=mU,B=(m一1)(0 l:1f: 一 ). 估计量多=[(m+1)/m]曰/描述了关于Q 信息的缺失比率. (二)家庭人均收入水平与家庭享有养老保险人 数之间的关系 首先将插补后的家庭年收入除以家庭规模得到 家庭人均收入,然后按照人均收入与2003年当地城 镇贫困线的比率将被调查家庭分为四个层次:低于 贫困线;介于贫困线和2倍贫困线之间;介于2倍贫 困线和4倍贫困线之间;4倍贫困线以上.另外,由 于家庭中养老保险拥有人数和家庭规模有关,所以 在不影响分析目的的情况下,笔者将家庭规模限定 为3口人.表3给出了不同收入层次的家庭平均每 户享有养老保险人数的点估计以及估计的标准差. 笔者感兴趣的问题是:完全数据(即删除带有缺失值 的记录,只包括没有任何缺失值记录的数据集)的分 析结果与多重插补后数据的分析结果有什么异同, 以及导致不同的原因. 表3家庭人均收入水平与家庭享有 养老保险人数之间的关系 家庭人均完全数据利用基于链式方程的多重插缺失 收入与贫分析结果补处理后的数据集的结果信息 困线的 比率点估计估计的标准误差点估计估计的标准误差比率 <1O.770.79O.70O.78O.1O [1,2)1.250.891.23O-880.O2 [2,4)1.48O.921.450.9OO.O3 ?41.360.9l1.27O.9OO.08 由表3可以看出,两者点估计有显着差别.对 于所有收入水平,完全数据分析的点估计均高于插 补后数据的点估计.表2可以帮助解释其中的原 因,根据表2的结果,家庭年收入缺失家庭的平均养 老保险拥有人数显着低于收入数据不缺失家庭的平 均养老保险拥有人数,对于3口之家,其值分别为 0.45和1.06.这表明:简单将含有缺失值的记录删 除的完全数据分析导致了对家庭平均养老保险拥有 人数的高估,而基于链式方程的多重插补则在一定 程度上纠正了此偏差.此外,两种分析所显示的家 第26卷第1期刘凤芹:基于链式方程的收入变量缺失值的多重插补?75? 庭人均收人水平和家庭享有养老保险人数之间的关 系是一致的,即当比率小于4时,两者呈正相关关 系.但是对于比率大于等于4的家庭其每户平均享 有养老保险人数不及比率处在2,4之间的家庭高. 对于点估计的标准差,完全数据分析的结果均 大于插补后数据的结果.这说明插补提高了点估计 的精度.这是因为多重插补在插补时利用了额外的 信息,其结果当然会更加精确.但是需要注意此结 论成立的前提假定是两个数据集的分析结果都是无 偏的. 表3同时还给出了缺失信息率估计,其估计值 处于0.02,0.10之间.缺失信息率的大小和缺失 率的大小,被估计的量等因素相关.结合表1和表 3可以看到,对于低收入家庭和高收入家庭其缺失 率和缺失信息率均高于中等收入家庭. (三)家庭人均收入水平与健康之间关系的 Logistic回归分析 本小节通过分析一个关于健康影响因素的 Logistic回归来讨论基于链式方程多重插补的一些 性质.家庭人均收入水平的定义同4.2节.健康为 一 个二分变量,0表示健康,1表示不健康,其他的协 变量以及具体模型结果见表4.表4呈现了如下三 个有意思的结果.首先,基于插补后数据集得到的 家庭人均收入水平变量的各个层次的系数均比基于 完全数据集所得的结果大.其主要原因是健康状况 糟糕的被访者通常更不愿意回答问题,而这部分人 属于低收入群体的可能性比起属于高收入群体的可 能性更大一些.因此使得即使限定在低收人这个群 体内部,其缺失机制仍然受健康状况的影响,不健康 者更不愿意或者没有能力认真填写问卷.这使得仅 仅利用完全数据会低估低收人群体的不健康发生的 频率,此偏差Logistic回归中就表现在参数估计值比 真实值偏小.而利用插补后数据得到的结果比完全 数据分析的结果偏大,说明基于链式方程的多重插 补在一定程度上纠正了此系统偏差.表5的数据分 析结果也验证了上述偏差的存在.如表5所示,在 支出超过收入很多的群体中,家庭年收入缺失的被 访者其不健康的发生率为0.47,高出收入数据不缺 失被访者近10个百分点. 其次,表4显示除了家庭人均收入水平,其他的 变量的缺失信息率均接近0.这说明家庭年收入的 较高缺失率并没有影响其他变量系数的信息缺失. 表4家庭人均收入水平与健康之间 关系的Logistic回归分析 完全数据的利用基于链式方程的 分析结果多重插补处理后的缺失 变量数据集的结果信息 参数估计的参数估计的蛊 估计标准差估计标准差 常数一1.O20.080—0.980.065O.1oo 家庭人均收人与贫困 线的比率 <12.320.0642.91O.06o0.17l [1,2)1.550.0572.040.0510.O6o [2,4)O.9l0.053O.920.0490.055 ?4(参照类) 年龄 <35一2.78O.O72—2-810.O65O .00136 — 45—2.1O0.076—2.080.068 46—55一1.330.057—1.670.0570.003 56—65一O.650.072—0.760.0690.010 0.o09 >65(参照类)—0.09O.O81—0.230.079 性别 男性 女性(参照类)O.020.030O.O30.0180.O04 工作状态 工作 不工作(参照类)0.O50.0400.o60.0450.0o5 家庭中需要照顾的0. 790.0900.790.87l0.oo7人数 婚姻状况 已婚O.0lO.O31O.O10.030O.0o2 再婚一0.()70.089一O.O6O.O9O0.0o8 离婚—0.05O.O58—0.04O.O5O0.017 丧偶—0.090.083一O.o90.0800.019 未婚(参照类) 是否吸烟 是 否(参照类)O.180.0900.190.078O.o34 表5低收入群体中家庭年收入缺失与健康之间的关系 家庭年收入缺失被访者家庭年收入不缺失被访收支结余状况 中不健康发生的频率者中不健康发生的频率 支出超过收入很多0.47O.38 支出略超出收入O.36O.3O 最后,表4显示对于大部分变量,多重插补数据 的估计标准差要小于完全数据分析的估计标准差. 这主要是因为多重插补数据样本量大于插补前的数 据,从而提高了估计精度.但是并不是所有情况下, 多重插补后标准差的估计值都小于完全数据分析的 估计值.这是因为插补前后数据的估计标准差受多 方面因素的影响.插补前数据的估计标准差受到缺 失率,缺失机制,待估计参数,变量真实变异性等因 素的影响,而其中的缺失机制,变量真实变异性等因 ? 76?统计研究2009年1月 素都无法准确确定.插补后数据的估计标准差主要 来源于变量变异性和缺失数据本身的不确定性. 五,多重插补的比较 之所以选择热平台多重插补做比较主要基于如 下两点原因:首先,热平台插补是一种非参数方法, 不需要设定任何模型.这一点与基于链式方程的多 重插补具有本质的不同;其次,热平台插补是一种常 用的方法.特别是处理收入变量的缺失值,实际统 计调查部门和学术研究都曾多次用到此方法. 为了能够有客观的比较标准,此处只利用家庭 年收入没有缺失的数据.缺失数据由模拟产生,其 缺失机制依据现实的家庭年收入数据的缺失机制产 生.具体为:如果家庭人均收入与当地贫困线的比 率小于等于1,则缺失概率为60%;如果比率大于1 并小于等于2,则缺失概率为40%;如果比率大于2 并小于等于4,则缺失概率为20%;如果比率大于4, 则缺失概率为40%;总的缺失率在35%左右.同时 为了确保结果呈现的两种方法之间的差别为本质 的,系统差别,并非是随机误差造成的,笔者依据上 述缺失机制产生1000个待处理的数据集,分别利用 这两种方法进行处理,然后对处理过的数据集进行 分析.这样每一个感兴趣的参数估计将得到两组结 果,每组分别含1000个结果.表6和表7的数值是 这1000个结果的平均值. 【一)热平台插补 热平台插补是一种非参数方法,其基本思想是: 如果第i条记录的变量,缺失,那么其插补值是从 相匹配记录魁的观察值中随机抽取的.如何为缺 失值寻找相匹配的记录是热平台插补的关键,依据 不同具体数据集而 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 .热平台插补的优点是不需 要给出有关被插补变量及协变量的任何分布,结果 比较稳健.其缺点是当很多记录都存在缺失值时, 此方法的结果不够理想. 虽然家庭年收入的插补是笔者真正感兴趣的, 但是本文所用数据中还有其他1O个相关变量有不 同程度的缺失(详见本文2.1节).为了更好的利用 热平台方法,笔者首先对这10个非收入数据的缺失 值进行了热平台插补,然后再对家庭年收入进行热 平台插补.由于篇幅所限,此处只对家庭年收入的 热平台插补过程做详细介绍. 对于家庭年收入的每一个缺失值,本文分别设 定由细到简三个水平的匹配原则.第一水平的匹配 原则由如下协变量构成:居住城市(7类),家庭劳动 人口平均年龄类型(3类),家庭劳动人口最高教育 (3类),住房类型(5类),住房的价值(5类),人均住 房面积(3类),日常消费类型(6类),工作者的行业 分类(7类),月工作总时间(4类)以及收入(4类). 第二水平的匹配原则由如下协变量构成:居住城市 (7类),家庭劳动人口平均年龄类型(3类),家庭劳 动人口最高教育(2类),日常消费类型(2类),工作 者的行业分类(3类),月工作总时间(2类)以及收入 (2类).第三水平的匹配原则由如下协变量构成: 居住城市(7类),家庭劳动人口平均年龄类型(2 类),家庭劳动人口最高教育(2类),日常消费类型 (2类).家庭年收入缺失值的插补值将首先按照第 一 水平匹配原则来寻找,如果没有找到相匹配的记 录则进入第二水平,如果仍然没有找到则进入第三 水平.本文利用Stata软件的hotdeek模块实现热平 台插补. (二)比较结果 表6给出了真实的家庭年收入,基于链式方程 多重插补处理后的家庭年收入,热平台多重插补处 理后的家庭年收入的均值,标准差.通过三者比较 可以发现如下有意思的结果:首先,热平台多重插补 严重低估了标准差.这主要是因为低收入家庭和高 收入家庭的缺失率均高于中等收入家庭,从而使得 部分低收入家庭和高收入家庭的热平台插补值来自 中等收入家庭,这导致了家庭年收入的分布向中等 家庭年收入集中,故呈现出标准差偏低的系统偏差. 实际上,经由合适的多重插补算法处理过变量的标 准差的估计值应该略大于其真实值,因为多重插补 考虑了缺失值本身的不确定性.其次,两种插补方 法估计的均值均高于真实的均值,但是热平台插补 的偏差更大一些.基于链式方程多重插补的偏差为 1003元,而热平台插补的偏差为2920元. 表7给出了家庭人均收入水平与家庭养老保险 拥有人数的关系,结果一共为三组,分别为利用真实 数据得到的结果;利用基于链式方程的多重插补处 理后的数据集的结果;利用热平台多重插补处理后 的数据集的结果. 表7显示出了如下两点有意思的结果:首先,对 于家庭人均收入与贫困线的比率<1和?4的情形, 两种方法均给出非常近似的估计.但是对于比率处 第26卷第1期刘凤芹:基于链式方程的收入变量缺失值的多重插补?77? 于[1,2)和[2,4)的情形,热平台插补的估计明显偏 低,这可能是因为热平台插补在插补过程中将部分 比率<1的家庭赋予略高的年收人,从而将其错误 的划为比率为[1,2)的一组,导致了这一组家庭拥有 养老保险人数估计的偏低.至于比率处于[2,4)组 的偏低结果,也出于类似的原因.其次,两种方法给 出了很接近的估计标准差.均大于真实数据的标准 差,这是因为多重插补方法考虑了缺失数据本身的 不确定性. 表6不同方法处理数据的均值与标准差 真实数据利用基于链式方程利用热平台多重 的多重插补处理后插补处理后的的结果 的数据集的结果数据集的结果 均值标准差均值f标准差均值I标准差 21O972498722100』2590424017J18109 表7家庭人均收入水平与家庭中 享有养老保险人数的关系 家庭人真实数据利用基于链式方程利用热平台多重 均收入的结果的多重插补处理后插补处理后的 与贫困的数据集的结果数据集的结果 线的点估估计的估计的估计的 比率点估计点估计计标准差标准差标准差 <1O.770.790.740.980.720.90 [1,2)1.250.891.141.040.901.1O [2,4)1.48O.921.331.321.121.27 ?41.36O.911.241.1l1.211.2O 六,结论 对比完全数据的分析结果和基于链式方程多重 插补处理后数据集的分析结果可以发现:基于链式 方程的多重插补可以在一定程度上纠正估计结果的 系统偏差,并且给出适当的标准差估计.与热平台 多重插补的比较结果表明:基于链式方程的多重插 补能够克服热平台多重插补低估标准差的缺陷.此 外,与其他多重插补方法不同,基于链式方程的多重 插补不需要给出被插补变量及其协变量的联合分 布,只需要给出单个变量的条件分布.这一特点非 常适合数据类型,结构都较为复杂的大型调查. 实际上,基于链式方程的多重插补适用于通常 计量分析中绝大部分的收人变量和数据集.除了本 文所举的家庭年收入的例子,基于链式方程的多重 插补还可以处理像工资收入,农民工打工收入等其 他类型的收人变量,其协变量根据具体的数据集和 将要做的计量分析而确定. 参考文献 [1]NathanielSCHENKER,TrivelloreE.RAGHUNATHAN,andPeiLu CHIU,etalMultipleImputationofMissingIncomeDataintheNational HealthInterviewSu~ey[J].JournaloftheAmericanStatistical Association,2006(9):924—933. [2]Little,R.J.A.,andRubin,D.B.StatisticalAnalysisWithMissing Data[M].NewYork:Wiley,2002. [3]LeeLillardandJamesP.Smith.WhatDoWeReallyKnowabout Wages?TheImportanceofNonreportingandCensusImputation[J]. TheJournalofPoliticalEconomy,1986(7):489—506. [4]Rubin,D.B.MultipleImputationAfter18+Years[J].Journalofthe AmericanStatisticalAssociation,1996(6),473—489. 15jDavid,M.R.,andJ.A.LittleAlternativeMethodsofCPSIncome Imputation[JJ.JournaloftheAmericanStatisticalAssociation,1986 (6):29—41. [6]D.B.RubinInferenceandMissingdata.Biometrika,1976(12),581— 592 17]H.C.Boshuizen,andD.L.Knook.MultipleImputationofMissing BloodPressureCovariatesinSurvivalAn02ysis[Jj.Statisticsin Medicine,1999(7):681—694. 18]S.VanBuuren,J.P.L.Brand,andC.G.M.Groothuis-Oudshoorn, eta1.FullyConditionalSpecificationinMultivariateImputation[J]. Journalofstatisticalcomputationandsimulation,2006(12):1049— 1O64. f9]Sehafer,J.L.AnalysisofIncompleteMultivariateData[M].New York:ChapmanandHall,1997. [10]Royston,P.MultipleImputationofMissingValues[J].TheStata Journal,2004(4):227—241. 作者简介 刘凤芹,女,33岁,山东昌邑人,2004年毕业于中国人民 大学统计学院,获经济学博士学位,现为北京师范大学社会 发展与公共政策学院讲师,硕士生导师,研究方向为应用统 计分析,社会保障. (责任编辑:赵曾琪)
本文档为【基于链式方程的收入变量缺失值的多重插补】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_731942
暂无简介~
格式:doc
大小:42KB
软件:Word
页数:19
分类:生活休闲
上传时间:2018-02-20
浏览量:79