首页 微观计量分析中缺失数据的极大似然估计

微观计量分析中缺失数据的极大似然估计

举报
开通vip

微观计量分析中缺失数据的极大似然估计 微观计量分析中 缺失数据的极大似然估计 ¹ 孙 凤 (清华大学人文学院) =摘要> 微观计量经济分析中常常遇到缺失数据, 传统的处理方法是删除所要 分析变量中的缺失数据, 或用变量的均值替代缺失数据, 这种方法经常造成样本有 偏。极大似然估计方法可以有效地处理和估计缺失数据。本文首先介绍缺失数据的 极大似然估计方法, 然后对一实际调查数据中的缺失数据进行极大似然估计, 并与 传统处理方法的估计结果进行比较和评价。 关键词 极大似然估计 预期 ) 最大算法 缺失数据 中图分类号 F2241 0 ...

微观计量分析中缺失数据的极大似然估计
微观计量分析中 缺失数据的极大似然估计 ¹ 孙 凤 (清华大学人文学院) =摘要> 微观计量经济分析中常常遇到缺失数据, 传统的处理方法是删除所要 分析变量中的缺失数据, 或用变量的均值替代缺失数据, 这种方法经常造成样本有 偏。极大似然估计方法可以有效地处理和估计缺失数据。本文首先介绍缺失数据的 极大似然估计方法, 然后对一实际调查数据中的缺失数据进行极大似然估计, 并与 传统处理方法的估计结果进行比较和评价。 关键词 极大似然估计 预期 ) 最大算法 缺失数据 中图分类号 F2241 0 文献标识码 A Maximum Likelihood Estimates for Missing Data of MicroOEconometric Analysis Abstract: Study on the micro O econometric analysis fr equent ly suf fers from missing data1 Tradit ional methods, such as listw ise delet ion, are inferiors1 Max-i mum likelihood can be an ef fect ive and practical method fo r handling m issing data1 In this paper, I int rodnce the basic pr inciples o f M L under m issing data at first1 Then, I present Expectat ion O Max im ization Algorithm for missing data to obtain ML estimates1 Finally, I use the EM to analyze a concrete survey data1 Key words: Max imum likelihood Est imates; Expectation ) Max im ization Algo- r ithm; M issing Data 一、问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 的提出 在微观计量经济分析中常常遇到缺失数据, 如被访者拒绝回答问题、访问员疏忽遗漏了 某些问题、或在 panel data 研究中, 上次被访者在本次调查中可能由于搬迁或死亡而不能继 续跟踪调查时, 都会造成数据缺失。由于计量经济的分析方法是为完备的数据集 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 的, 缺 失数据给分析带来许多不便, 需要利用辅助信息对缺失数据进行补救。比较常用的补救方法 #51#微观计量分析中缺失数据的极大似然估计 ¹ 本文受国家自然基金资助 (批准号: 70173040) , 课题名称为 / 中国消费者行为研究0。 如: ¹直接使用回答数据的均值替代缺失数据; º利用与缺失数据有关的辅助信息将总体单 位分层, 在分层基础上进行替代估计或加权调整估计 (金勇进, 1998)。 然而, 缺失数据的存在意味着信息的丢失, 如果直接使用回答数据的均值替代缺失数 据, 达不到我们所设计的估计效果。特别是, 如果不回答问题的人群与回答问题的人群存在 系统差异时, 用现有的回答数据的均值替代缺失数据, 分析结果将出现偏差。例如, 美联储 的消费者金融调查 ( SCF) 采用两个样本框, 一个是多阶段地区抽样框, 另一个是纳税人信 息抽样框, 采用后一个抽样框的目的是使在全社会财富分布中处于右端尾部的人分配到更多 的样本。Kennickell ( 1991) 对 SCF 数据的分析发现: 地区抽样框的响应率是 69%, 而纳 税人信息抽样框的响应率仅为 34%, 其中的原因是富人更倾向于拒绝回答问题, 响应率随 财富的增加而递减。 比较而言, 利用与缺失数据有关的辅助信息进行分层, 在分层基础上进行替代估计或加 权调整估计在克服回答与未回答问题人群的系统差异上不失为一种权宜之计, 但当能够用于 分层的辅助信息较多时, 缺失数据的估计值将不是惟一的。考虑到这种情形, 本文尝试运用 极大似然估计法对缺失数据进行估计。 二、极大似然估计法与缺失数据的估计 极大似然估计法是计量经济分析中常用的参数估计方法, 该方法通过建立似然函数将观 测数据的概率密度表述为未知模型参数的函数, 模型参数的最大似然估计是选择能够使这一 函数值达到最大的参数估计值。其基本思想如下: 假定我们要估计一个参数 H, 如果 f ( y / H) 是在给定参数 H下的任意观察值 Y 的概率密 度, n个单位的似然函数为: L (H) = F n i= 1 f ( y i / H) ( 1) 其中F为连乘符号, 表示 n个单位概率密度的联合分布。当然我们还需要明确 f ( y /H) 的实际分布。假如数据类型为二项分布, 编码为 1, 0。其似然函数可以表示为: L (H) = F n i = 1 Hyi ( 1- H) 1- yi ( 2) 极大似然法如何用于缺失数据的估计呢? 假如有两个变量 X 和 Y,对于前 m个单位, 我 们能够观察到 X 与 Y 值,对于剩余的 n- m 个单位, X 是缺失数据,我们仅能观察到 Y 值。 对于前 m个单位, 由于能够观察到全部数据, 我们可以建立概率密度函数 f ( x , y / H) , 其中 H是待估参数, 决定着 X 和 Y 的分布。对于 X 变量中 n- m 个缺失数据, 每一单 位的似然函数是 Y 的边际分布, 以函数表示为: g( y /H) = E x f ( x , y/ H) ( 3) 对于全部样本的似然函数可以表示为: L (H) = F m i= 1 f ( x i , y i /H) F n i= m+ 1 g( y i /H) ( 4) 问题的核心是估计H值使似然函数达到尽可能的大。如果两个变量 X , Y 中的X 有缺失 #52# 5数量经济技术经济研究6 2005 年第 11 期 数据, f ( x , y) 的联合密度能够被写为 h ( x / y ) g ( y ) , 其中 g ( y ) 是 Y 的边际分布, 而 h ( x / y ) 是在给定 Y 条件下的X 的分布。这样, 我们可以重新构造似然函数为: L ( K, <) = F m i = 1 h( x i / yi ; K) F n i= 1 g( y i / <) ( 5) 从 ( 5) 式可以看出: 第一, (5) 式是针对全部观察值, 而不仅仅是在变量 X 上的缺失 数据; 第二, H参数被分为 K和<两部分, 其中 K表示在给定 Y 条件下的X 的分布, <表示 Y 的边际分布。这种划分意味着我们能够将该似然函数分成两部分求最大值。 上述理论可以通过一个实例予以说明。假定运用简单随机抽样法抽取 200人, 描述两个 二分变量 X , Y (取值为 1, 2) 的分布及关系。对于 X , Y 两个变量, 二者都能被观察的单 位是 150个, 如表 1所示。 表 1 能够被观察的变量 X、Y 的分布 Y= 1 Y= 2 X = 1 52 21 X = 2 34 43 另外 50个单位, X 是缺失数据, 特别地, 当 Y = 1时, X 有 19 个缺失数据, 当 Y = 2 时, X 有 31个缺失数据。X 和 Y 的关系如表 2所示。 表 2 Y 已知情形下, 缺失数据 X 的分布 Y= 1 Y= 2 X = 1 P11 P12 X = 2 P21 P22 其中, p ij代表X = i和 Y= j 的概率。如果我们用 150 个单位的数据代表全部数据, 其 似然函数可以表示为: L ( p 11 ) 52 ( p 12) 21 ( p 21 ) 34 ( p 22) 43 ( 6) 以上公式的约束条件是四个概率之和为 1。四个概率的极大似然估计为: p^ ij = nij n ( 7) 其中 n ij是落在相格 ( i, j ) 中单位的数量, 因此我们能够计算得到: p^ 11 = 01 346; p^ 21 = 01 227; p^ 12 = 01 140; p^ 22 = 01 287 然而, 由于这些概率值没有用到变量 Y 的另外 50个值的信息, 在推断总体时, 可能出 现偏差, 因此需要将在 X 为缺失数据下的 Y 变量的信息引入似然函数。 在 X 为缺失数据的情形下, Y = 1 的边际概率为 p 11 + p 21 ; Y= 2 的边际概率为 p 12 + p 22 , 所有样本的似然函数可表示为: L = ( p 11) 52 ( p 12) 21 ( p 21) 34 ( p 22) 43 ( p 11+ p 21) 19 ( p 11+ p 22) 31 ( 8) 如何能得到 p ij值, 而使似然函数达到最大值呢? 本例中, 由于两个变量中只有一个变 量具有缺失数据, 我们可以分别估计在给定 Y 情形下X 的条件分布和 Y 的边际分布。对于 #53#微观计量分析中缺失数据的极大似然估计 2 @ 2的列联表, 极大似然估计的一般形式为: p^ ij = p^ ( X= i/ Y= j ) p^ ( Y= j ) ( 9) 等式右边的条件概率项用现有数据估计, 这些值可以用 2 @ 2 表中的次数与列合计相除 得到。等式右边 Y 的边际概率项的估计则是将 Y 在每一列上的次数合计 (包括在 X 上的缺 失数据) 除以样本规模得到。具体计算如下: p^ 11= 52 86 86+ 19 200 = 01 3174 p^ 21= 34 86 86+ 19 200 = 01 2076 p^ 12= 21 64 64+ 31 200 = 01 1559 p^ 22= 43 64 64+ 31 200 = 01 3191 从两种计算方法的比较看, 不考虑缺失数据和考虑缺失数据的两种计算结果存在差异, 后者较前者对现有信息的利用更多。 三、缺失数据极大似然估计的实际应用 上例是在两个属性变量, 且一个变量有缺失数据情形下的极大似然估计方法的应用, 当 变量是连续变量, 且每个变量都存在缺失数据时, 该如何运用极大似然法估计缺失数据呢? Dempster et ( 1977)、McLachlan 和 Kr ishnan ( 1997) 的研究结果发现, 如果在数据存 在缺失情形下, 求极大似然估计值的最好方法是 EM 算法。该方法之所以被称作 EM , 是由 于它的计算过程由两步构成: 一步为预期过程 ( expectat ion step) ; 另一步为最大似然过程 ( max im ization step)。这两步通过不断地迭代, 最终收敛的结果就是 ML 估计值。 EM 算法的基本思想是: 首先确定未知参数均值和方差向量的初始值, 初始值是以剔除 缺失数据后所计算的均值和协方差确定, 基于该初始值, 再计算任意一个 X 对其他X 的回 归系数。例如数据集中包括四个变量, X 1、X 2、X 3、X 4 , 假定变量 X 1 和 X 2 是能够被全 部观察到的数据, 而 X 3 和 X 4 存在缺失数据。我们用初始值的协方差向量计算 X 3 对 X 1 和 X 2 的回归, 以及 X 4 对 X 1 和 X 2 的回归, 然后再用该回归模型得到 X 3 和 X 4 的缺失数据的 估计值。 当得到所有缺失数据的估计值后, 接下来就是通过最大似然过程对非缺失数据计算新的 均值和协方差向量。当得到新的均值和协方差的估计量, 我们再开始重复 E 过程, 即用新 的估计量对缺失数据计算新的估计量。不断地轮番使用预期步骤和最大化步骤, 直到下一步 的估计量与本步的估计量相同, 我们认为该估计量达到收敛¹。 研究目的是通过对居民就诊满意度指标及数据的分析, 了解缺失数据的分布, 运用 EM 方法估计缺失数据, 将估计的缺失数据填充到数据集中, 计算均值、方差、建立回归模型, 并将 EM 的计算结果与其他常用的缺失数据处理方法进行比较, 以判断各种方法的优劣。 本次调查的有效样本是 620个, 调查的时段为自此调查前 10个月内是否到过医院。在 此调查时段内曾经到过医院的样本是 402个, 本文仅对到过医院的样本数据做一分析。表 3 #54# 5数量经济技术经济研究6 2005 年第 11 期 ¹ EM 方法的迭代过程需要借助统计软件来实现, 比较通用的软件如 SPSS 121 0, AMOS41 0, 以及 SAS。本文运 用实际调查数据对缺失数据的 EM 处理方法做一考察, 数据来源于中国人民大学 2002年北京市居民医疗消费行为意愿调 查 (调查问卷见易丹辉 5北京市居民医疗消费行为及意愿研究6 , 中国人民大学出版社, 2004) , 分析软件是 SPSS 121 0。 是对居民就诊满意度的 9个指标的基本描述 ¹ , 数据显示每个变量都有不同程度的缺失数 据, 最高占全部数据的 471 8%, 最低占 211 6%。 表 3 缺失数据的分布 样本数 非缺失 缺 失 频 数 频 率 tt4 402 261 141 351 1 tt5 402 292 110 271 4 tt6 402 315 87 211 6 tt7 402 257 145 361 1 tt8 402 250 152 371 8 tt9 402 210 192 471 8 tt10 402 214 188 461 8 tt11 402 259 143 351 6 tt12 402 234 168 411 8 表 4和表 5反映的是对缺失数据的不同处理方法, 产生不同的均值和标准差。其中包括 剔除缺失值 ( listw ise) , 预期最大似然法 ( EM ) , 以及回归法 ( Regression)。表下方的 Lit t leps MCAR 检验结果为拒绝原假设, 认为本次调查数据的缺失不是完全随机缺失, 用剔 除法或均值替代, 将使结果有偏。从各种均值与标准差的比较看, 剔除法与其两类方法存在 较大差异。比较看, EM 法与回归法的计算结果比较接近, 而与剔除法则有较大出入。 表6和表 7是将 EM 模型的估计值与回归法的估计值分别替代缺失值, 然后再分别建立 回归方程而得到的回归系数以及检验结果。比较看, 以 EM 方法估计参数的 t检验结果优于 回归法的 t 检验结果。从本研究各项指标的比较看, 在对缺失数据的处理上, EM 方法最 优, 回归方法次之, 而剔除缺失数据的方法由于损失了信息, 与前两种方法有较大的出入。 表 4 三种估计方法的均值比较 tt4 tt5 tt6 tt7 tt8 tt9 tt10 tt11 tt12 剔除法 51 2857 41 7143 31 8571 31 4286 41 0000 41 8571 51 2857 41 4286 51 0000 预期最大似然法 51 8978 51 1676 41 7061 51 0225 41 8982 51 7845 51 9125 51 1485 51 3560 回归法 51 9127 51 1422 41 6226 51 0051 41 7697 51 8180 51 9254 51 1229 51 4516 Little 的完全缺失检验 ( LittleÄs MCAR test) : 卡方 ( ChiO Square) = 17151 089, 自由度 ( DF) = 321, 显著性检验 ( Sig) 1 = 01 000。 表 5 三种估计方法的标准差比较 tt4 tt5 tt6 tt7 tt8 tt9 tt10 tt11 tt12 剔除法 11 40184 11 92906 11 57064 11 86290 21 23061 11 37169 11 77084 11 41668 11 79430 预期最大似然法 11 21936 11 64377 11 75574 21 02807 11 86620 11 35530 11 38853 11 56133 11 61446 回归法 11 27885 11 63125 11 69656 11 99851 11 75970 11 35406 11 33830 11 52205 11 59747 Little 的完全缺失检验 ( LittleÄs MCAR test) : 卡方 ( ChiO Square) = 17151 089, 自由度 ( DF) = 321, 显著性检验 ( Sig) 1 = 01 000。 #55#微观计量分析中缺失数据的极大似然估计 ¹ 本次调查反映居民就诊满意度的指标有 9个, 分别是: t t4总体满意度; t t5总体收费合理性; t t6药品费用合理 性; t t7治疗费用合理性; tt8就诊手续方便度; t t9 环境卫生满意度; t t10 硬件设施满意度; tt11 医务人员专业水平; t t12医务人员服务态度。该问卷通过设计 10级量表, 判断满意程度, 其中 / 10 为特别不满意, / 100 为特别满意。 表 6 EM法填充缺失值后的回归系数 模 型 非标准化系数 标准化系数估计值 标准差 估计值 t统计量 显著性检验值 1 常数项 51 010 01 129 381 743 01 000 tt5 - 01 472 01 018 - 01 658 - 251 792 01 000 tt6 01 307 01 016 01 468 181 684 01 000 tt7 01 502 01 014 01 853 341 643 01 000 tt8 - 01 293 01 014 - 01 444 - 201 491 01 000 tt9 - 01 934 01 034 - 01 999 - 271 675 01 000 t t10 01 624 01 030 01 670 201 833 01 000 t t11 01 775 01 017 01 994 461 228 01 000 t t12 - 01 276 01 017 - 01 333 - 161 607 01 000 a 因变量: tt4。 表 7 回归法填充缺失值后的回归系数 模 型 非标准化系数 标准化系数 估计值 标准差 估计值 t统计量 显著性检验值 1 常数项 31 365 01 351 91 595 01 000 tt5 - 01 061 01 042 - 01 077 - 11 452 01 147 tt6 01 147 01 038 01 201 31 824 01 000 tt7 01 199 01 032 01 321 61 194 01 000 tt8 - 01 178 01 035 - 01 251 - 51 104 01 000 tt9 - 01 054 01 052 - 01 059 - 11 050 01 294 tt10 - 01 007 01 051 - 01 007 - 01 129 01 898 tt11 01 425 01 041 01 510 101 483 01 000 tt12 01 043 01 037 01 053 11 180 01 239 a 因变量: tt4。 以上实证研究表明, 缺失数据的极大似然估计, 不仅可以从未缺失数据的分布情况中推 算出缺失数据的估计值, 从而有效地使用所有数据进行分析, 提高统计结果的可信度。而 且, 用估计值替代缺失值也可以消除数据中隐藏的偏向, 将所有层级间的差异组在分析结果 中表现出来, 从而得出更加精确的结论。 微观计量经济学分析中的数据来自抽样调查, 缺失数据常常发生。因此在建立计量经济 模型、进行参数估计和拟合优度检验前, 首先需要对缺失数据进行有效处理, 只有这样, 才 能使分析建立在坚实的基础之上, 所得出的结论和政策建议才有实际价值。 参 考 文 献 [ 1] Dempst er, A1 P1 , L aird, N1 M1 , and Rubin, D1 B1 ( 1977) , Max imum l ik el ihood estimation f r om incomp lete d ata via the EM algor ithm , Journal of the Royal Stat istical Societ y, ser ies B, 39, 1~ 381 [ 2] L ittle, R1 J1 A1 ( 1988) , Missing data in large sur vey s ( w ith d iscuss ion) , Journal o f Business and Economic Statistics, 6, 287~ 3011 [ 3] McLachlab, G1 J1 , and K r ishnan, T1 ( 1997) , T he EM al gor ithm and ex tensions , N ew York: W-i ley1 Paul D1 Allison, ( 2001) , Mis sing data1 Sage publicat ion, Inc1 [ 4] 金勇进: 5处理缺失数据中辅助信息的利用6 , 5统计研究6 1998 年第 1 期。 [ 5] 易丹辉: 5北京市居民医疗消费行为及意愿研究6 , 中国人民大学出版社, 2004。 (责任编辑: 朱长虹) #56# 5数量经济技术经济研究6 2005 年第 11 期
本文档为【微观计量分析中缺失数据的极大似然估计】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_773679
暂无简介~
格式:pdf
大小:218KB
软件:PDF阅读器
页数:6
分类:经济学
上传时间:2012-11-02
浏览量:35