首页 断点回归RDD

断点回归RDD

举报
开通vip

断点回归RDD工具变量法(InstrumentalVariable,IV)、双重差分法(Difference-in-Difference,DID)和断点回归设计(RegressionDiscontinuityDesign,RDD)成为应用微观计量研究中运用最广泛的方法。断点回归是拟随机实验方法中揭示因果效应最有效的一种方法,可以视作是一种特殊的倾向值匹配,它不需要对多个混淆变量控制,而是考虑一个个体是否接受某个自变量的影响。RDD优势:更接近于随机试验的拟随机实验方法,从理论上讲是一种更好的因果识别方法。拟随机实验方法是以统计控...

断点回归RDD
工具变量法(InstrumentalVariable,IV)、双重差分法(Difference-in-Difference,DID)和断点回归设计(RegressionDiscontinuityDesign,RDD)成为应用微观计量研究中运用最广泛的方法。断点回归是拟随机实验方法中揭示因果效应最有效的一种方法,可以视作是一种特殊的倾向值匹配,它不需要对多个混淆变量控制,而是考虑一个个体是否接受某个自变量的影响。RDD优势:更接近于随机试验的拟随机实验方法,从理论上讲是一种更好的因果识别方法。拟随机实验方法是以统计控制模拟实验控制,从而检验因果假设。Lee(2008)认为在随机实验不可得的情况下,断点回归能够避免参数估计的内生性问题,从而真实反映出变量之间的因果关系。1960年就已被Thistlethwaite和Campbell(I960)提出,Lee和Lemieux(2010)提出了运用RDD做经验研究的规范。RDD适用条件:符合非混淆假设。在断点附近有较多观测值,对数据要求很高。强制变量一定要非常干净,强制变量的临界值不得用于作为实验之外的干预。断点回归设计的基本逻辑哲学逻辑:Holland(1986)通过 总结 初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf 自然科学、社会科学的大量研究和讨论,提出科学的解决 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 和统计的解决方案两种解决因果问题的方案,科学的解决方案主要包括重复实验和随机实验。断点回归的主要思想,运用随机实验思想,控制研究的样本近似于随机分布在临界值附近,小于临界值的样本作为控制组,大于临界值的样本作为实验组,通过比较它们的差别来研究干预变量和结果变量之间的因果联系。统计逻辑:通过统计控制,使得非实验的调查数据尽可能地随机分布在临界值附近,同时,满足非混淆假设,就是要求结果变量独立于干预变量。解决了传统方法中个体异质性和混杂因素的问题。非混淆假设要求研究对象是随机地分配到实验组和对照组,即二分量D(实验处置变量)本身和最后的实验结果Y1(接受实验的结果—一事实)、Y0(未接受实验的结果一一反事实)没有关系(工具变量思想),换句话说,Y1、Y0独立于D。断点回归设计方法分类:1984年,Trochim综合前人对断点回归的理论和方法,将断点回归分为两类:一类是精确型的(SharpRD)(如图1(a)),即个体在临界值X一边接受处置效应的概率为1,另一边则为0;也可以说是断点X=c处,个体得到处理的概率从0跳跃为1。一类是模糊型的(FussyRD)(如图1(b)),即在临界值X附近,接受处置效应的概率是单调变化的。也可以说是断点X=c处,个体得到处理的概率从a跳跃为b(0=1区>门的处理效应为正,则kja之间的线性关系在,一。处就存在一个向「一跳荻的断点.在戈=u附近.个体在各方I川均无系统差别.造成曳山加在此跳趺的啡-原因只能是R的处理效应,故可将此跳跃视为在工=c姓0对X的因果效应.为1枯汁此跳跃,将方程改写为,yt=tx+fi(xt-c)+SDt+jiXj-c}Df+st(i=I,…变值。-G为晶的标推化,使得(&-门的断点为d引入心:力项贝士-口马允许断点两侧的I叩噬斜率可以不皿对此方程进行OLS[可归,所得M就是在工=,处的LATE拈冲量.局部平均处理效应LATE使用上述方程估计精确断点回!U,存在两个问题。首先r如果向回函数包含高.次期,比如—次项(工-『『,则会导致遗漏变量偏差。其次,既然断点回归是局部的随机实验.则原则上只应使用断点附近的观测值.却使用「整个样本.为解决这两个问题.可在方程中引入高次项(比如二次项J.并限定Jt的取值范围为①-瓦。+加:为=fit+川值--+皿+%(X,-明十用■,才十/式周一。-0k叫(c-Ac时,treatment=1,否则treatment=0)和前定变量。a、p、0和y为待估计的参数,£为随机扰动项。p显著不为0,表明处理对结果变量有影响。在参数估计中,首先做全样本参数估计。参数估计的要点是确定模型(1)中的多项式次数K。一般从一次尝试到八九次,然后挑选赤池信息准则(AIC)取值最小的模型。另外一个比赤池信息准则更好的方法是,在多项式模型的自变量中先加入表示箱体的虚拟变量,然后不断加入配置变量的多次项,只到下述原假设成立:所有箱体虚拟变量的系数均等于零。(谢谦,2019)半参数的方法便是用非参数估计的方法替代断点两边估计因变量的拟合。对于Fuzzy的情形,参数估计意味着将配置变量(score)以及配置变量与是否超过断点的乘积(score*above_cutoff)作为实验变量的工具变量来进行两阶段最小二乘估计,实际应用中往往联合使用score,score*above_cutoff,scoreA2,scoreA2*above_cutoff作为估计的工具变量,见第二部分的例子。子样本非参数估计。非参数估计就是对最优带宽内的子样本做加权局部线性回归。非参数估计的要点是确定最优带宽。非参数估计的做法是,利用核密度函数局部现性回归来代替2SLS里面一般线性回归,rdrobust命令可以直接实现这种估计。确定最优带宽的方法有两种:拇指规则法(ruleofthumb,ROT)和交叉验证法(crossvalidationprocedure,CV)。加权可用矩形核密度函数、三角形核密度函数等。其中,使用矩形核密度函数加权的非参数估计,等于是基于子样本的参数估计。使用三角形核密度函数与使用矩形核密度函数的唯一区别是,前者给临近断点的观测值更大的权重。但是,要想给临近断点的观测值更大的权重,更透明的做法是在更小的带宽内使用矩形核密度函数。使用矩形核密度函数得到的结果也更易解释。值得庆幸的是,实践中不同核密度函数得到的结果一般是一致的。具体研究中,参数估计和非参数估计都要做,在两种方法下都稳定的结果更可信。第5步检验结果对不同带宽、不同多项式次数的稳健性。尝试的其它带宽,一般是最优带宽的一半和两倍。挑选多项式的最优次数,可用赤池信息准则(Akaike'sInformationCriterion,AIC)。在我们尝试的包含配置变量1次方、2次方、……N次方的众多方程中,AIC取值最小的那个就是我们想要的。实操时,试到多少次为好?Gelman和Imbens(2014)的NBER工作论文说,试到N次的做法要不得,最多只能搞到2次。第6步检验结果对加入前定变量的稳健性。如上所述,如果不能操控配置变量的假设成立,那么无论前定变量与因变量的相关性有多高,模型中加入前定变量都不应该影响处置效应的估计结果。如果加入前定变量导致处置效应的估计结果变化较大,那么配置变量可能存在排序现象,前定变量在断点处也很可能存在跳跃。实操时在确定多项式的次数后,直接在回归方程中加入前定变量。如果这导致处置效应估计值大幅变化或者导致标准误大幅增加,那么可能意味着函数中多项式的次数不正确。另外一个检验是残差化,看相同次数的多项式模型对残差的拟合好不好。第7步检验协变量是否在断点处跳跃。经济学三部曲:一是操纵检验(Manipulation),二是平衡性检验(BalancingTestsandCovariates,检验相似性),三是证伪检验(FalsificationTests)Pinotti,Paolo(2017)AER论文的实际操作这篇论文的研究问题是移民获得合法身份后的犯罪是否会减少。其中,实验变量是是否获得合法身份,因变量是移民申请人在申请合法身份后的第一年(2008年)是否有犯罪记录,这里面的选择偏误是合法身份并不是随机发放给移民申请人的,那些预期犯罪更少的移民更有机会(有雇主帮助申请)和动力(花更多的时间和精力去准备申请)来申请合法身份,直接对比犯罪率会夸大合法身份的作用(使负向系数更小)。为了克服这个选择偏误,作者利用了意大利的自然实验,意大利的移民身份申请是先到先得的,也就是在系统开放后,申请时间越晚中签率会越低,作者发现申请递交时间timing上有一个断点,当申请人晚于这个断点提交 申请书 入党申请书下载入党申请书 下载入党申请书范文下载下载入党申请书民事再审申请书免费下载 时,会导致其中签率跳跃式下滑,但不至于完全为零,于是作者找到了一个Fuzzy断点情景。下面我们看看作者是怎么操作的。其实这个情景很像上海的机动车抽签系统。2.1配置与处置变量的散点图在实际操作中,作者Pinotti在描述政策背景的时候直接汇报了配置与处置变量的散点图(5min作为箱体),如下图PanelA.MsIan:lype-ApermitsPanelBB&ngama:typs-Bpermiss,eroiapplications(ri^hl&,isjFicuRt2.TiminuufAjjpliua-leunsanljPhubahiu”ohOEji.ttMNu>Pi+mlifuhTvejLuietujtiinMilanamjNafcs;TticscgraphsshowtheiciaSnumberofapplicationsreceivedlhlackLine,rightaxis)and[hefiLiciiMiofthosethatwere电leuuiid*JcccplcJ;gmyline,leftnxis)qlcacliniiniiicinlioicbciwecn配00amand12:00pmfortheul'lwolultcriex:lv^AapplitaiiLsinAIBaciajidtypeBupplicund।iiuncMstnKLiumBljinEk"au?*ThrvliliealMtitsinujlHgraphsbuwllietiiniiiLicfllie^LniclujiiLbivakp.'iulindiepric-babililyuface,;_.」可至说家f互唱出后theAndrews(1993)心l.然后作者使用Andrews(1993)检验的方法检验存在结构性断点,但是作者没有在正文与附录中汇报该检验的结果。确定断点作者针对每一个“摇号点”,用Andrew(1993)的方案找出“themostlikelybreakpoints”,同样作者没有汇报cutoffpoint的详细数据以及寻找过程。仅仅在附件中汇报了下图。IIrIIIin19Ios-00C9:0010:0011:0012:00n:0014:0015:0016:0017:(K)cutoflsFigureA6.,Densityofcutoffpointsacrossapplicants全局2SLS估计作者将样本人为限制在cutoffpoint附近半个小时以内样本。(1)首先汇报了因变量(2008年犯罪率)与前定变量(2007年犯罪率)与配置变量的散点图及其置信区间。i'icukE3.NumbEkofCr]\[esranAfplic'antBeforeandAfiehClickLJa'es.CoxcriioS/■:理的曼*乐的ArPLiCATiON2007;allapplicants0.025-2008:allapplicants0.025-0.02-0.02-O.OD5302010O1020302007:type-Aapplicants0.025-0.005.2008:type-Aapphcants0.025-0.005T-30-20-10O102030-30-20-100102Q302007:lype-Bapplicants2008:type书applicants0.025-30-20-1001020300.012」一0.0150.D1&0.0150.0T0.9050.0150.0150.01&-0.01-0.005。由1-0.005-TiningIhe即plic日ti。1「:匚tiiufl:r-0)上图的实际实现分为两步,第一步是用是否大于cutoffpoint的dummy与score的四次项多项式回归,得出不同分数的拟合值与置信区间,第二步是画出散点图与拟合曲线图。以2007年为例,stata实现为:bysbin:egenmean=mean(serious07)regserious07ontimemindelaymindelay2ontimexmindelayontimexmindelay2,robustpredictfitpredictfitsd,stdpgenupfit=fit+1.645*fitsdgendownfit=fit-1.645*fitsdpreservetwoway(rareaupfitdownfitmindelay,sortfcolor(gs12)lcolor(gs12))///(linefitmindelayifmindelay<0,sortlcolor(green)lwidth(thick))(linefitmindelayifmindelay>0,sortlcolor(red)lwidth(thick))(scattermeanmidbin,msize(large)mcolor(black)msymbol(circle_hollow)),///ytitle("")xtitle("Timingoftheapplication,X(cutoff:X=0)")xline(0,lcolor(black))legend(off)xlabel(-30(10)30)title("2007,allapplicants")graphcopyall2007,replacerestoredrop*fit*mean(2)然后,作者在一张表中汇报了2sls以及前定变量的ols结果Table3—EbE-tciot-LegalSiaiuscjniHtNcmbizkufCrimesperGijUKAI.POI.YNrh宿erosk史d总etMendclusrcrc-d4箱力血印已m、*:|arc白Keirepined.PanelBofilietable山ereducedlormreg比帛察ionofaduLiiiiiyloiLoniiiuLiling±iLlegistoneseriousottenseintheyearbeforeclickdays(2007)cmtheinstruni€ntZaiidl(insqutir€brackets)diebaselinecrime「趾已in邑uchyear,Ei:「|Z—0).Al!regressionscontrolforaquadniricpolyimniMinthetimeelapscdlsincethecuroff!'byrtie.rxni]-ijsecond)“ndiLsinterneLionwithZ,aiuldiespeciiicaliui]^incuIujliji^4-6akoincludelottery-JixedeffectsandjquiuJolicpciiIyTKimialinageRohiisistandurdemirsarcTcpurttxiinpanrnchc^^,unci布匕,;[《[u;西班上胃」[虱13y~incolumns4-6,盛诚得随厨房通过上表,我们可以得出在前定变量方面,断点两边的差异是不显著,在因变量方面显著,而且显著性来自type-A样本。在回归中作者使用了四次项多项式,而且只用了0ntime这一个工具变量。以2008年为例,其实stata现方式为:***reducedform,2008***regserious08ontimemindelaymindelay2ontimexmindelayontimexmindelay2iftype=="A",robustxtregserious08ontimemindelaymindelay2ontimexmindelayontimexmindelay2ageage2,robusti(lotterycode)fecluster(lotterycode)xtregserious08ontimemindelaymindelay2ontimexmindelayontimexmindelay2ageage2iftype=="A",robusti(lotterycode)fecluster(lotterycode)***2SLS,2008***ivreg2serious08(permit2007=ontime)mindelaymindelay2ontimexmindelayontimexmindelay2,robustfirstivreg2serious08(permit2007=ontime)mindelaymindelay2ontimexmindelayontimexmindelay2iftype=="A",robustfirstxtivreg2serious08(permit2007=ontime)mindelaymindelay2ontimexmindelayontimexmindelay2ageage2,robustfirsti(lotterycode)fecluster(lotterycode)xtivreg2serious08(permit2007=ontime)mindelaymindelay2ontimexmindelayontimexmindelay2ageage2iftype=="A",robustfirsti(lotterycode)fecluster(lotterycode)其他前定变量的稳健性作者分别汇报了Age,来源国,来源国收入水平等维度上的配置变量散点图来显示cutoffpoint两边的无差异性,做法与图三相同。High-incomecouniryFigure4.iNntvmrAi.fHARAcrFKrsTic"!;;.CDNnrrinNALnNtheTimingofApr3.icnATHJNVr>jfvrThesegraphsshnwtheaverageindiiidu汨ehiaMcrcristiesofTypc-Aiipplicanis,condiTicnsilonThethningofapplLcaticn.Thescatterplotareaverageswitliiiitive-Linjiuleb-iuis,andrhesolidlinesandshade41arethepre-diclsdl\alucsandassoujaledlconiideiiueEwv&]"「上后叩clivH”onuqiiLidaaticpulynuniiH/[痘三®i后的]副区稳健性检验(1)局部现性2SLS估计为了体现论文的稳健性,作者接着使用了局部线性估计,结果如下:TlBLb.4-EbbECI-UI-LtGALSlATUiUNJHENLIMBhR(JbCKIMES「EHAf^LM.ANI.KlrjsllLocalLinlarRm度口“unBiUMlwidih:LK2012Bandwidth:CCT2014All(iiTypeA⑵TypeB⑶AH㈤Tj-ptiA⑸TvpeB⑻Kutel/L胜ur2。岫Reducedformft,004-0.008-0,001fl,00*?-0.0(HlO.Otl.V!(O-.IXE)(O.(XB)i(LOI)2)2SLScftecipflegal或atusrt.OOS-0.0H-0.003-00104),014-0.005(0.004;(0.0G5'((J.UCJ6:(0.UUO:(U.OtFjSlz€ofliuLtidwidih9:269:556:37S:J77s7Ohseftatifins.insidebandwidth41/743I737M27*01293M)513,45422.5^2Pu/ielB.Ycur2007Reducedthnno.noi。侬0001<).0040.001got©([).0(W:(1).002)(CLIHM;由W©Size贼W)『*出出L0:2025:4311:157:27*517-31□b-serv.atiojisinsidebajidwidUi45,4723636231J64J33,3J015,W521,371□bxervaliens110,3374D,4511103374045169.8S6jVr?fr.v:Thistableshnwj;nnnparametriicestimates,oftheeffectoflegal4割他§n力thecramerateofclickdayappli-cmils-PanelAreponsr-cduiieillurinand2sLsi空lee&i口ngulwduiiuiiy匕—!IolapplifLiLilsihalcommitledalleast□Jiejjciinusclfen^ein2008onaduiiignyL—1fur^pplk^jit^oUaiiunglegalUMusu口clickihy9*Thelintslugtiin巾心帆i.sadummyZ=Iforhavingappliedhcfrircubccutofftime.PanelRofrheTablereportstherediiccdrb]!tnregretsictiicfadummyfi>rcomminirig.atleast口i世seriallyoftens£inthejeai1beforeclickdays(21X)7)chitheLn^LiimireLiLZ.Al]Loeliicienl^areesLiniatedusingak€m^lImailinearregressionina匕ymmeliicbaiidwidlliLiruundihtcululLThetablereptulsthebandwidths^lu-ciiourule,IK2012dfCCT2QI4.theofLhehandwiJih【伫5心轮dinEninu心力亡亡口。#):andthenumberofobservationsinelLtd^di]ithebandwidih.R-t熊|苧泮脚舒房aijereportedinparentheses.",'1在实际操作中,作者汇报了IK2012与CCT2014两种带宽选择方案的结果,其中IK的样本大约为40%左右,CCT为30%。表4的实现方式如下,注意,作者并没有使用Covariates,我的理解是实际操作中Cov的影响很小(毕竟在断点附近COV几乎没有差异),而且离散型是的Cov会导致结果不收敛。rdrobustserious08mindelay,bwselect(IK)rdrobustserious08mindelayiftype=="A",bwselect(IK)*新的rdrobust命令中bwselect算法已经更新rdrobustserious08mindelayiftype=="B",bwselect(IK)rdrobustserious08mindelayrdrobustserious08mindelayiftype=="A"rdrobustserious08mindelayiftype=="B"rdrobustserious08mindelay,fuzzy(permit2007)bwselect(IK)rdrobustserious08mindelayiftype=="A",fuzzy(permit2007)bwselect(IK)rdrobustserious08mindelay,fuzzy(permit2007)rdrobustserious08mindelayiftype=="A",fuzzy(permit2007)(2)作者使用不同的多项式次数与带宽选择进行估计,汇报结果如下Type-BapplicantsPolynomialdegreeType-Aapplicants0.03H0.02-io.qir0.01■0.02-删删注册删-0.03-CCTIKBandwidth30min.Figure6.Si'Nscnvnyj'lmalvsisTti&graph$shoiv(he2SLSestimatedcoefricienisoflegalItanisfordifferentspecificationsofparametricandnntiparntneTiicregrcs^inns.distinguishingbetweenrype-Aandtype-Rappliciint'i.itip;iTiicularThe[qngraphson(hetop£h。敕thepointeivtiilliite!;andaK^eiitcdccmtidenceiniervaJs;咻e北varyingthedecreeoftheparametricpolynotnia]rcgretsioiibe[ween0and6.7hctwographsonthebotLon^&h凸炳ahcpointeitiimcesandconfidenceintervalswhenvaiyingthebandwidthoft]ie[lonparLimctricregressionsbetween1、tud加,?挈,矗,屏咻selectedLtctordiiigtotheIK20S2andCCT20I4criccria虹eahoreportedonthehoHznutnlaxis.实际实现为:**generatepolynomialsgrade3-6***forvaluesi=3/6{genmindelay$_i=mindelayA$_igenontimexmindelay$_i=ontime*mindelay$_i}**PARAMETRICESTIMATES(topgraphs)***foreachtin"A""B"{preservekeepiftype=="$_t"quixtregserious08ontimeageage2,robusti(lotterycode)fedisplay"type$_t|polynomialdegree0|coeff."_b[ontime]"|std.err."_se[ontime]quixtregserious08ontimemindelayontimexmindelayageage2,robusti(lotterycode)fequixtregserious08ontimemindelaymindelay2ontimexmindelayontimexmindelay2ageage2,robusti(lotterycode)fequixtregserious08ontimemindelaymindelay2mindelay3ontimexmindelayontimexmindelay2ontimexmindelay3ageage2,robusti(lotterycode)fequixtregserious08ontimemindelaymindelay2mindelay3mindelay4ontimexmindelayontimexmindelay2ontimexmindelay3ontimexmindelay4ageage2,robusti(lotterycode)fequixtregserious08ontimemindelaymindelay2mindelay3mindelay4mindelay5ontimexmindelayontimexmindelay2ontimexmindelay3ontimexmindelay4ontimexmindelay5ageage2,robusti(lotterycode)fequixtregserious08ontimemindelaymindelay2mindelay3mindelay4mindelay5mindelay6ontimexmindelayontimexmindelay2ontimexmindelay3ontimexmindelay4ontimexmindelay5ontimexmindelay6ageage2,robusti(lotterycode)ferestore}**NONPARAMETRICESTIMATES(bottomgraphs)***preserveforvaluesh=1/30{quirdrobustserious08mindelayiftype=="A",fuzzy(permit2007)h($_h)display"type$_t|bandwidth$_h|'e(tau_F_cl)'|'e(se_F_cl)'|'e(N)'"}restore}作者同时在附录中汇报了前定变量的回归结果:lypsAappiicekHte..pardmemictypeBappHcanlis,parametriceslimalestypeAapplicants,non-parametricestimates4H“由“”科虹““MMMHCCTIK30min.0CCIIK30min.Barw-aihaandwMfthtypeAapplicantsinron-parametricestimatesFig[iREA!>.SENSrTIVETYANALre]SnREDUCEDFORMEKTIBbJATESFQR2(KJ7Noty;Thegraphsshuwtireiccliicedfoiinr(名『essicmoftheciiuieinihv.ycn「beforeClickDa^(2(H)7)ontheinytiiim电口tZ=1Forimmigraintsa.pplyingbeforethecutoff而r上汗白汁加与p".ifk:»tionyofpai"ametricandnon-pHrametricregressions,dirfthi^uinhingbetweentype-Aandtype-Bapplicants,hiparticular,th也twographsonthetopshowthepointestimatesandatss(>cia.tc1(duishowthepuinleslii“日resaiidojuficl^ncHicatervalswhen^■aryingthebandwidthofthenon-p凡r魏metricregresbiorLsbetween1and3()minuter;thebiindwidthsselectedacciirding;totheIK20L2andCCT2U14criteria
本文档为【断点回归RDD】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
白学芝
热爱爱问
格式:doc
大小:345KB
软件:Word
页数:19
分类:
上传时间:2022-11-19
浏览量:36