Lecture 6 Limited Dependent Variables 高级计量经济学及Stata应用课件

Lecture 6 Limited Dependent Variables 高级计量经济学及Stata应用课件Lecture6LimitedDependentVariables高级计量经济学及Stata应用课件受限被解释变量在某些情况下，被解释变量的取值范围可能受限制，称为“受限被解释变量”(LimitedDependentVariable)。本讲考虑断尾回归(TruncatedRegression)，归并回归(CensoredRegression)，及样本选择模型(SampleSelection)。2020/7/20陈强计量及Stata应用(c)20142断尾数据对于线性模型，假设由于某种原因，只有满足y>c(c为...

Lecture6LimitedDependentVariables高级计量经济学及Stata应用课件受限被解释变量在某些情况下，被解释变量的取值范围可能受限制，称为“受限被解释变量”(LimitedDependentVariable)。本讲考虑断尾回归(TruncatedRegression)，归并回归(CensoredRegression)，及样本选择模型(SampleSelection)。2020/7/20陈强计量及Stata应用(c)20142断尾数据对于线性模型，假设由于某种原因，只有满足y>c(c为常数)的数据才能观测到。例：y的总体为某地区所有企业的年销售收入，而统计局只收集规模以上企业的数据，比如y>100,000。被解释变量在100,000处就存在“左边断尾”(lefttruncation)。2020/7/20陈强计量及Stata应用(c)20143断尾随机变量的概率分布随机变量y断尾后，概率密度函数随之变化。记y原来的概率密度为，在c处左边断尾后的条件密度函数为概率密度函数下面积必须为1，故“断尾随机变量”(truncatedrandomvariable)的密度函数均乘以因子。2020/7/20陈强计量及Stata应用(c)20144断尾的效果2020/7/20陈强计量及Stata应用(c)20145断尾分布的条件期望回归的实质就是估计条件期望函数。以左边断尾(lefttruncation)为例，计算断尾分布的条件期望对于最简单的情形，，可证明对于任意实数c，定义“反米尔斯比率”(InverseMill’sRatio，简记IMR)为，则。2020/7/20陈强计量及Stata应用(c)20146反米尔斯比率2020/7/20陈强计量及Stata应用(c)20147断尾分布的条件期望(续)对于一般的正态分布，定义，则。故最后一个等号使用了标准正态的断尾期望公式2020/7/20陈强计量及Stata应用(c)20148断尾分布的条件期望(续2)对于回归模型，假设。故。套用正态分布的断尾公式可得：如用OLS估计，则遗漏非线性项，被纳入扰动项中。由于该项是xi的函数，故与xi相关，导致OLS不一致的估计。2020/7/20陈强计量及Stata应用(c)20149MLE估计断尾前，y的概率密度函数为样本被观测到的概率为2020/7/20陈强计量及Stata应用(c)201410MLE估计(续)根据断尾密度公式，断尾后的条件密度为写出整个样本的似然函数，进行MLE估计2020/7/20陈强计量及Stata应用(c)201411断尾回归的Stata命令truncregyx1x2x3,ll(#)ul(#)选择项“ll(#)”表示lowerlimit，即左边断尾；选择项“ul(#)”表示upperlimit，即右边断尾；同时使用这两个选择项，则表示双边断尾。2020/7/20陈强计量及Stata应用(c)201412例：妇女的劳动时间以数据集laborsub.dta为例，估计一个决定妇女劳动时间的模型。变量包括：whrs(wife’shoursofwork)，kl6(#ofkidslessthan6)，k618(#ofkidsbetween6and18)，wa(wife’sage)，we(wife’syearsofeducation)，lfp(是否就业，laborforceparticipation)。显然，如果lfp=1(有工作)，则whrs>0。2020/7/20陈强计量及Stata应用(c)201413数据特征uselaborsub.dta,cleartablfp样本容量250人，有100人不工作(工作时间为0)。2020/7/20陈强计量及Stata应用(c)201414OLS回归regwhrskl6k618waweifwhrs>02020/7/20陈强计量及Stata应用(c)201415断尾回归假设在“whrs=0”处存在左边断尾truncregwhrskl6k618wawe,ll(0)nolog断尾回归的结果与OLS有较大不同。2020/7/20陈强计量及Stata应用(c)201416偶然断尾与样本选择被解释变量y的断尾可能与另一变量z有关，称为“偶然断尾”(incidentaltruncation)或“样本选择”(sampleselection)，称z为选择变量。例：在美亚裔移民整体聪明能干。但在美亚裔并非亚洲人口的代表性样本。受过高等教育或具吃苦冒险精神的亚裔更会“自我选择”(selfselect)移民。决定移民与否的变量对被解释变量产生断尾作用。“样本选择”导致“选择性偏差”(selectionbias)。2020/7/20陈强计量及Stata应用(c)201417偶然断尾的条件期望考虑二维正态随机向量(y,z)，记期望为，标准差为，相关系数为，联合密度函数为。假设决定个体是否有可能进入样本的“选择机制”(selectionmechanism)为“选择变量z大于某常数c”。断尾后的联合分布为将上式的z积分掉，可得偶然断尾y的条件期望2020/7/20陈强计量及Stata应用(c)201418偶然断尾公式的解读此公式类似于普通断尾的公式。如果(y与z相互独立)，则z的选择过程并不对y产生影响。如果(即y与z正相关)，则“z>c”偶然断尾的结果是把y的整个分布推向右边，从而使得条件期望大于无条件期望。2020/7/20陈强计量及Stata应用(c)201419样本选择模型考虑。y是否可观测取决于虚拟变量z。z由潜变量z*决定：潜变量的决定：故z服从Probit模型：2020/7/20陈强计量及Stata应用(c)201420样本选择模型(续)可观测样本的条件期望为(使用偶然断尾公式)OLS估计将遗漏非线性项，导致不一致估计，除非(y与z不相关)2020/7/20陈强计量及Stata应用(c)201421Heckman两步法如果知道，就知道，可把它作为解释变量引入回归方程。Heckman(1979)提出“两步法”(two-stepestimation)，也称“Heckit”。第一步：用Probit估计方程，得到估计值，计算。第二步：用OLS回归，得到估计值。2020/7/20陈强计量及Stata应用(c)201422MLE估计更有效率的方法为MLE。在Heckit两步法中，第一步误差被带入第二步，故效率不如MLE的整体估计。两步法的优点是操作简便；对于分布的假设更弱(不假设二维正态分布，也可能成立)。为检验是否存在样本选择偏差(sampleselectionbias)，可使用似然比检验原假设“”。如用Heckit，则无法进行似然比检验。样本选择模型也称“TypeIITobit”。2020/7/20陈强计量及Stata应用(c)201423样本选择模型的Stata命令heckmanyx1x2x3,select(w1w2)(默认使用MLE，选择方程的被解释变量为y)heckmanyx1x2x3,select(w1w2)twostep(两步法，选择方程的被解释变量为y)heckmanyx1x2x3,select(z=w1w2)(默认使用MLE，选择方程的被解释变量为z)对于没有观测值的，在Stata中应将其设为“缺失”(missing)。Stata将缺失的观测值记为“.”2020/7/20陈强计量及Stata应用(c)201424例：妇女工资的决定以数据集womenwk.dta为例。被解释变量为lw(如果工作，则等于工资对数；如果不工作，则为缺失值)usewomenwk.dta,clearheckmanlweducationagechildren,select(agemarriedchildreneducation)nolog2020/7/20陈强计量及Stata应用(c)2014252020/7/20陈强计量及Stata应用(c)201426MLE结果解读上表底部的LR检验显示，可拒绝原假设“”，应使用样本选择模型。表中的“/athrho”指的是的双曲反正切(hyperbolicarctangent)函数，即相关系数须满足参数约束，给MLE最大化带来不便。参数变换后(re-parameterization)，新参数不受任何约束。2020/7/20陈强计量及Stata应用(c)201427Heckit两步法估计heckmanlweducationagechildren,select(agemarriedchildreneducation)twostepnolog结果见下页：两步法的结果与MLE很接近。2020/7/20陈强计量及Stata应用(c)2014282020/7/20陈强计量及Stata应用(c)201429归并数据对于线性模型，可能当(或)时，所有都被归并为c。这种数据称为“归并数据”(censoreddata)。例(topcoding)在问卷调查中，常有诸如“收入在￥50,000及以上”的选项。例(cornersolution)考虑“买车开支”变量。如果不买车，则“买车开支”为0，为边角解；反之，如买车，则买车开支为正数。例(cornersolution)失业者的劳动时间为0，为边角解；就业者的劳动时间为正数。2020/7/20陈强计量及Stata应用(c)201430归并数据的特点归并回归(censoredregression)与断尾回归不同：虽有全部观测数据，但对于某些数据，被解释变量被压缩在一个点上。的概率分布由一个离散点与一个连续分布组成混合分布(mixeddistribution)。无论整个样本，还是去掉离散点的子样本，OLS估计都不一致。2020/7/20陈强计量及Stata应用(c)201431归并回归的模型设定假设(不可观测)，扰动项不失一般性，假定归并点为c=0。假设可以观测到下面分别计算子样本与全样本的条件期望2020/7/20陈强计量及Stata应用(c)201432子样本的条件期望使用子样本进行回归，忽略了非线性项，导致OLS不一致2020/7/20陈强计量及Stata应用(c)201433全样本的条件期望其中，故对整个样本进行回归，将遗漏非线性项，导致OLS不一致2020/7/20陈强计量及Stata应用(c)201434TobitTobin(1958)提出MLE估计，称为“Tobit”，也称“TypeITobit”。的概率密度仍为，而的分布被挤到一个点上，即混合分布的概率密度函数为2020/7/20陈强计量及Stata应用(c)201435归并回归的Stata命令tobityx1x2x3,ll(#)ul(#)选择项“ll(#)”表示lowerlimit，即左归并；选择项“ul(#)”表示upperlimit，即右归并；同时使用这两个选择项，则表示双边归并。如果把选择项“ll(#)”写为“ll”，则Stata将把样本中y的最小值作为左归并点。如果把选择项“ul(#)”写为“ul”，则Stata将把样本中y的最大值作为右归并点。2020/7/20陈强计量及Stata应用(c)201436例：妇女的工资以妇女就业数据集womenwk.dta为例，估计一个工资决定模型。被解释变量：lwf(equalslogofwageifworkingand0ifnotworking，如果工作，则等于工资的对数；如果不工作，则等于0)。解释变量：age(年龄)，married(婚否)，children(子女数)，与education(教育年限)。2020/7/20陈强计量及Stata应用(c)201437被解释变量lwf的直方图histlwf2020/7/20陈强计量及Stata应用(c)201438OLS回归usewomenwk.dta,clearreglwfagemarriedchildreneducation,r2020/7/20陈强计量及Stata应用(c)201439归并回归进行归并回归，左归并点为0：tobitlwfagemarriedchildreneducation,ll(0)2020/7/20陈强计量及Stata应用(c)201440

                    本文档为【Lecture 6 Limited Dependent Variables 高级计量经济学及Stata应用课件】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥11.9 已有0 人下载

立即下载

Lecture 6 Limited Dependent Variables 高级计量经济学及Stata应用课件

你可能还喜欢