首页 应用回归分析 总复习

应用回归分析 总复习

举报
开通vip

应用回归分析 总复习一元线性回归线性回归多元线性回归讨论如何从数据推断回归模型基本假设的合理性回归诊断当基本假设不成立时如何对数据进行修正自变量选择的准则回归变量的选择回归分析逐步回归分析方法岭回归参数估计方法的改进主成分回归非线性回归可化为线性回归的曲线回归自变量含定性变量的情况含有定性变量的回归因变量是定性变量的情况一元线性回归1一元线性回归模型2参数β0、β1的估计3最小二乘估计的性质4回归方程的显著性检验5残差分析6回归系数的区间估计7预测1一...

应用回归分析 总复习
一元线性回归线性回归多元线性回归讨论如何从数据推断回归模型基本假设的合理性回归诊断当基本假设不成立时如何对数据进行修正自变量选择的准则回归变量的选择回归分析逐步回归分析方法岭回归参数估计方法的改进主成分回归非线性回归可化为线性回归的曲线回归自变量含定性变量的情况含有定性变量的回归因变量是定性变量的情况一元线性回归1一元线性回归模型2参数β0、β1的估计3最小二乘估计的性质4回归方程的显著性检验5残差分析6回归系数的区间估计7预测1一元线性回归模型一元线性回归模型y=β0+β1x+ε2)var(0)(E回归方程E(y|x)=β0+β1x01ˆˆyˆx经验回归方程2参数β0、β1的估计一、普通最小二乘估计(OrdinaryLeastSquareEstimation,简记为OLSE)niiiniiixyxyQ1210,121010)(min)ˆˆ()ˆ,ˆ(10最小二乘法就是寻找参数β0、β1的估计值使离差平方和达极小2参数β0、β1的估计得OLSE为niniiixxxnxxxL11222)()(niiiniiixyyxnyxyyxxL11))((xxxyLLxy/ˆˆˆ110记2参数β0、β1的估计二、最大似然估计在假设εi~N(0,σ2)时,知yi服从正态分布:),(~210iixNyxxxyLLxy/ˆˆˆ110220111()niiiyxn3最小二乘估计的性质一、线性是y1,y2,…,yn的线性函数:niiniiiniiniiiyxxxxxxyxx1121211)()()(ˆ10ˆˆ、其中用到3最小二乘估计的性质二、无偏性1110121121)()()()()ˆ(niinjjiniinjjixxxxxyExxxxE0)(xxi)()(2xxxxxiii3最小二乘估计的性质三、的方差njjniinjjixxyxxxx12212121)()var()()ˆvar(10ˆˆ、2220)()(1)ˆvar(xxxni210)ˆ,ˆcov(xxLx3最小二乘估计的性质三、的方差10ˆˆ、)))(1(,(~ˆ2200xxLxnN),(~ˆ211xxLN在正态假设下,n),,(i,jj,ij,iσ),ε(ε,n,,,i)E(εjii210cov2102GaussMarkov条件4回归方程的显著性检验一、t检验原假设:H0:β1=0对立假设:H1:β1≠0),(~ˆ211xxLN由当原假设H0:β1=0成立时有:),0(~ˆ21xxLN4回归方程的显著性检验一、t检验构造t统计量ˆˆˆˆ121LxxLtxxniiiniiyynen12122ˆ2121ˆ其中4回归方程的显著性检验二、F检验平方和分解式niiiniiniiyyyyyy121212)ˆ()ˆ()(SST=SSR+SSE构造F检验统计量)2/(1/nSSESSRF4回归方程的显著性检验三、相关系数的显著性检验)()())((12121niiniiniiiyyxxyyxxryyyyxxxyLLLLLxx1ˆ4回归方程的显著性检验五、三种检验的关系212rrntˆˆˆˆ121LxxLtxx)2/(1/nSSESSRFH0:=0H0:r=0H0:回归无效4回归方程的显著性检验六、样本决定系数niiniiyyyySSTSSRr12122)()ˆ(222)(rLLLSSTSSRryyxxxy可以证明6回归系数的区间估计等价于),(~ˆ211xxLN)2(~ˆ)ˆ(/ˆˆ11211ntLLtxxxx1)2(ˆ)ˆ(2/11ntLPxx1)ˆˆˆˆ(2/112/1xxxxLtLtP)ˆˆ,ˆˆ(2/12/1xxxxLtLtβ1的1-α置信区间因变量新值的区间预测1)2(ˆ1ˆ2/0000nthyyPy0的置信概率为1-α的置信区间为ˆ1)2(ˆ002/0hntyy0的置信度为95%的置信区间近似为ˆ2ˆ0y因变量平均值的区间估计得E(y0)的1-α的置信区间为E(y0)=β0+β1x0是常数)))(1(,0(~)(ˆ22000xxLxxnNyEyˆ)2(ˆ002/0hnty多元线性回归1多元线性回归模型2回归参数的估计3参数估计量的性质4回归方程的显著性检验5中心化和 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 化6相关阵与偏相关系数1多元线性回归模型一、多元线性回归模型的一般形式y=β0+β1x1+β2x2+…+βpxp+ε2)var(0)(E1多元线性回归模型一、多元线性回归模型的一般形式写成矩阵形式为:y=Xβ+ε,其中,nyyy21y)1(111pnnpn2n12p22211p1211xxxxxxxxxXp10βn21ε1多元线性回归模型二、多元线性回归模型的基本假定在正态假定下:y~N(Xβ,2In)E(y)=Xβvar(y)=2In2回归参数的估计一、回归参数的普通最小二乘估计最小二乘估计要寻找使得,,,,,ˆˆˆˆ210pniippiiiniippiiipxxxyxxxyQp1222110,,,,1222110210)(min)ˆˆˆˆ()ˆ,,ˆ,ˆ,ˆ(210yXXXβ-1)(ˆ2回归参数的估计二、回归值与残差cov(e,e)=cov((I-H)Y,(I-H)Y)=(I-H)cov(Y,Y)(I-H)′=σ2(I-H)In(I-H)′=σ2(I-H)得D(ei)=(1-hii)σ2,i=1,2,…,nH)y-(IHyyyyeˆ2回归参数的估计二、回归值与残差niiepnpnSSEpn12211(1111ˆ)ee是σ2的无偏估计2112)1()()(pneDeEniinii得2回归参数的估计三、回归参数的最大似然估计y~N(Xβ,σ2In)yXXXβ-1)(ˆ3参数估计量的性质性质1是随机向量y的一个线性变换。βˆyXXXβ-1)(ˆ性质2βˆ是β的无偏估计。βXβXXXεXβXXXyXXXyXXX)β1-1-1--1)()E()()E()())(E((ˆE3参数估计量的性质性质3D(βˆ)=σ2(X′X)-1βyXXXβyXXXβββββEββEββββ11E)))(E(()))(E((),ˆˆˆˆˆˆˆˆcov()ˆ(D)))11β-εXXXββ-εXXXββεXβXXXβεXβXXX11(()((EE1111111XXXXXIXXXXX)XεεXXXXXXεεXXX2n2)E(E(E3参数估计量的性质性质4Gauss-Markov定理预测函数020210100ˆˆˆˆˆppxxxyβˆ是的线性函数Gauss-Markov定理在假定E(y)=Xβ,D(y)=σ2In时,β的任一线性函数的最小方差线性无偏估计(BestLnearUnbiasedEstimator简记为BLUE)为c′,其中c是任一p+1维向量,是β的最小二乘估计。Cβˆβˆ4回归方程的显著性检验一、F检验H0:β1=β2=…=βp=0niiiniiniiyyyyyy121212)ˆ()ˆ()(SST=SSR+SSE)1/(/pnSSEpSSRF当H0成立时服从)1,(pnpF4回归方程的显著性检验二、回归系数的显著性检验H0j:βj=0,j=1,2,…,p~N(β,σ2(X'X)-1)βˆ记(X'X)-1=(cij)i,j=0,1,2,…,p构造t统计量ˆˆjjjjct其中niiiniiyypnepn1212ˆ1111ˆ4回归方程的显著性检验四、复相关系数SSTSSESSTSSRR12决定系数为:y关于x1,x2,…,xp的样本复相关系数SSTSSRRR2)1(11122RpnnRa2/(1)1/(1)aSSEnpRSSTnAdjustedR-square5中心化和标准化一、中心化经验回归方程ppxxxyˆˆˆˆˆ22110经过样本中心);,,,(21yxxxp将坐标原点移至样本中心,即做坐标变换:,jijijxxxyyyii回归方程转变为:ppxxxyˆˆˆˆ2211ppxxxyˆˆˆˆ22110回归常数项为5中心化和标准化二、标准化回归系数样本数据的标准化公式为:,*jjjijijLxxx*yyiiLyyy得标准化的回归方程***2*2*1*1*ˆˆˆˆppxxxyp,1,j,ˆ*jyyjjjLL违背基本假设的情况),2,1,()(,2,1,)(ni,jj0,ij,iσ,εεcovn0,iεE2jiiGauss-Markov条件违背基本假设的情况2016/12/4JSNUZhouQin37•Theerror𝜖𝑖,i=1,2,···,n,hasanormaldistribution.•Theerrors𝜖𝑖,i=1,2,···,n,havemeanzero.•Theerrors𝜖𝑖,i=1,2,···,n,havethesamevariance𝜎2Heterogeneity(方差齐性)ortheheteroscedasticity(异方差)problem.(Chapter7).•Theerrors𝜖𝑖,i=1,2,···,n,areindependentofeachother.Independent-errorsassumption.TheautocorrelationproblemisconsideredinChapter8.212,,,i.i.d~(0,)nN5残差分析iiiiixyyye10ˆˆˆ残差误差项iiixy10残差ei是误差项i的估计值。011221122ThehatorprojectionmatrixTheltheresidualof(1,2,,)ˆˆ=...,1,2,,()--everagevalue(--)-iiipipiiiiinnijnniiyxxxeyyyinypypypyinpp-1yXβ=X(XX)XyPyP杠杆值iii-istheithdiagonalelementofareelementsofiiijppPP2016/12/4JSNUZhouQin4022var()var()var(var()(1)iiiepy-y(I-P)Y)=(I-P)var(y)(I-P)=(I-P)eStandardizedresidual1iiiiezpσisunknown2016/12/4JSNUZhouQin41BothofthemaretheUEsofσ2.n2i2i=1(i)(i)2(i)eSSEσ===n-p-1n-p-1n-p-1SSESSEσ==(n-1)-p-1n-p-2ee𝑆𝑆𝐸(𝑖)isthesumofsquaredresidualswhenwefitthemodeltothen-1observationsobtainedbyomittingtheithobservation.2016/12/4JSNUZhouQin42*221iiinprrnprInternallystudentizedresidual(内学生残差)Externallystudentizedresidual(外学生残差)*()~(2)1iiiiiertnpp1iiiierpThestandardizedresidualsdonotsumtozero,buttheyallhavethesamevariance.4.8Leverage,Influence,andOutliers杠杆点,强影响点,异常值分别如何判定?判定强影响点的三种度量是?2016/12/4JSNUZhouQin444.9.1Cook’sDistance2()122(),1,2,,(1),1,2,,11njjijiiiiiiiyyCinprpCinpp1iiiippPotentialfunction位势函数Influentialpoints1iC2016/12/4JSNUZhouQin454.9.2WelschandKuhMeasure(DFITS)()()*,1,2,,,1,2,,1121jjiiiiiiiiiiiiyyDFITSinppDFITSrinppDFITSnpInfluentialpoints2016/12/4JSNUZhouQin464.9.3Hadi’sInfluenceMeasure221,1,2,,111iiiiiiiiiiipdpHinppdedSSENormalizedresidual正规化残差2一元加权最小二乘估计二、一元加权最小二乘估计)()ˆ(),(11210210niniiiiixyyyQ一元线性回归普通最小二乘法的残差平方和为:一元线性回归的加权最小二乘的离差平方和为:niiiiniiiiwxywyywQ12101210)()ˆ(),(2一元加权最小二乘估计加权最小二乘估计为:211110)())((ˆˆˆniwiiwiniwiiwwwwwxxwyyxxwxy其中,iiiwxwwx1iiiwywwy1是自变量的加权平均;是因变量的加权平均。3多元加权最小二乘当误差项εi存在异方差时,加权离差平方和为niippiiiiwxxxywQ1222110)(nwww21W记WyXWXXβ-1w)(ˆ加权最小二乘估计WLS的矩阵 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 达4自相关性问题及其处理如果一个回归模型的随机误差项cov(εi,εj)≠0则称随机误差项之间存在着自相关现象。这里的自相关现象不是指两个或两个以上的变量之间的相关,而指的是一个变量前后期数值之间存在的相关关系。4自相关性问题及其处理1,1tttrr自相关系数法误差序列ε1,ε2,…,εn的自相关系数定义为nttnttnttt2212221r自相关系数的估计值为nttnttnttteeee2212221rˆ4自相关性问题及其处理(三)D.W检验随机扰动项的一阶自回归形式为:εt=ρεt-1+ut其中ut是不相关序列。为了检验序列的相关性,构造的假设是H0:ρ=04自相关性问题及其处理(三)D.W检验ntitntteeeWD22212)(.定义D.W统计量为:ntttnttnttntteeeeeWD2212221222.ntitntteee2212124自相关性问题及其处理(三)D.W检验nttnttteee2221nttnttnttteeee2212221rˆ)ˆ1(2.rWD得D.W的取值范围为:0≤D.W≤44自相关性问题及其处理四、自相关问题的处理方法(一)迭代法以一元线性回归模型为例,设一元线性回归模型的误yt=β0+β1xt+εtεt=ρεt-1+utn),2,1,st,(st,0t,),cov(n,2,1,t,0)E(2suuustt4自相关性问题及其处理(一)迭代法根据回归模型yt=β0+β1xt+εt有yt-1=β0+β1xt-1+εt-1则有(yt-ρyt-1)=(β0-ρβ0)+β1(xt-ρxt-1)+(εt-ρεt-1)令11ttttttxxxyyyrr1100)1(rtttuxy10得其中自相关系数ρ用公式估计。WD.211ˆr自变量的选择与逐步回归1自变量选择对估计和预测的影响2所有子集回归3逐步回归2所有子集回归准则1自由度调整复相关系数达到最大)1(11122RpnnRa显然有2aR≤R2,2aR随着自变量的增加并不一定增大。从拟合优度的角度追求“最优”,则所有回归子集中2aR最大者对应的回归方程就是“最优”方程。2所有子集回归准则1自由度调整复相关系数达到最大从另外一个角度考虑回归的拟合效果,回归误差项方差σ2的无偏估计为:SSEpn11ˆ2此无偏估计式中也加入了惩罚因子n-p-12所有子集回归准则2赤池信息量AIC达到最小AIC=nln(SSE/n)+2p对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型2所有子集回归准则3Cp统计量达到最小考虑在n个样本点上,用选模型(5.2)式作回报预测时,预测值与期望值的相对偏差平方和为:niimmiipppippniiippxxxxyEyJ121101102122))(ˆˆˆ(1))(ˆ(1pnSSESSEmnpnSSECmppp2)1(2ˆ2一、前进法前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。首先分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的m个回归系数的F检验值,记为}F,,F,F{1m1211,选其最大者记为:}F,,F,Fmax{F1m12111j给定显著性水平α,若1jF≥Fα(1,n-2),则首先将xj引入回归方程,为方便,设xj就是x1。二、后退法后退法与前进法相反,首先用全部m个变量建立一个回归方程,然后在这m个变量中选择一个最不重要的变量,将它从方程中剔除。设对m个回归系数进行F检验,记求得的F值为}F,,F,F{mmm2m1}F,,F,Fmin{Fmmm2m1mj给定显著性水平α,若mjF≤Fα(1,n-m-1),则首先将xj从回归方程中剔除,为方便,设xj就是xm。三、逐步回归法逐步回归的基本思想是“有进有出”。具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是“最优”回归子集。多重共线性的情形及其处理1多重共线性产生的背景和原因2多重共线性对回归模型的影响3多重共线性的诊断4消除多重共线性的方法3多重共线性的诊断21,1,...,11jjjVIFjpRVIF111conllinearitypjjVIFVIFpVIFj≥10collinearity3多重共线性的诊断(二)条件数特征根分析表明,当矩阵X′X有一个特征根近似为零时, 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 矩阵X的列向量间必存在复共线性。那么特征根近似为零的标准如何确定哪?这可以用下面介绍的条件数确定。记X′X的最大特征根为λ1,1,i0,1,2,,piik为特征根λi的条件数(ConditionIndex)。1ThelargestonditionIndexnot,115collinearcollinear30strongcollinearpppppkkkk1岭回归估计的定义我们称yXIXXβ-1)k((k)ˆ为β的岭回归估计,其中k称为岭参数。2岭回归估计的性质在本节岭回归估计的性质的讨论中,假定(7.2)式中因变量观测向量y未经标准化。性质1(k)βˆ是回归参数β证明:E[(k)βˆ]=E[(X′X+kI)-1X′y]=(X′X+kI)-1X′E(y)=(X′X+kI)-1X′X显然只有当k=0时,E[(0)βˆ]=β;当k≠0时,(k)βˆ是β的有偏估计。要特别强调的是(k)βˆ不再是β的无偏估计了,有偏性是岭回归估计的一个重要特性。3因变量是定性变量的回归模型二、定性因变量回归的特殊问题1.离散非正态误差项。对一个取值为0和1的因变量,误差项εi=yi-(β0+β1xi)当yi=1时,εi=1-β0-β1xi=πi当yi=0时,εi=-β0-β1xi=1-πi显然,误差项εi是两点型离散分布,当然正态误差回归模型的假定就不适用了。3因变量是定性变量的回归模型2.零均值异方差性。当因变量是定性变量时,误差项εi仍然保持零均值,这时出现的另一个问题是误差项εi的方差不相等。0-1型随机变量εi的方差为D(εi)=D(yi)=πi(1-πi)=(β0+β1xi)(1-β0-β1xi)(9.14)εi的方差依赖于xi,是异方差,不满足线性回归方程的基本假定。3因变量是定性变量的回归模型3.回归方程的限制当因变量为0、1虚拟变量时,回归方程代表概率分θ≤E(yi)=πi≤1对一般的回归方程本身并不具有这种限制,线性回归方程yi=β0+β1xi4Logistic回归模型Logistic回归方程为cixxpiii,,2,1,)exp(1)exp(1010其中c为分组数据的组数。做线性化变换,令)1ln(iiippp上式的变换称为逻辑(Logit)变换,得pi′=β0+β1xi+εi应用回归分析Theend
本文档为【应用回归分析 总复习】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥18.0 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
肥猫叫noah
暂无简介~
格式:pdf
大小:1MB
软件:PDF阅读器
页数:0
分类:高中语文
上传时间:2020-01-21
浏览量:1