首页 岭回归

岭回归

举报
开通vip

岭回归第七章岭回归7.1岭回归估计的定义7.2岭回归估计的性质7.3岭迹分析7.4岭参数k的选择7.5用岭回归选择变量7.6本章小结与评注§7.1 岭回归估计的定义一、普通最小二乘估计带来的问题当自变量间存在复共线性时,回归系数估计的方差就很大,估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。例7.1假设已知x1,x2与y的关系服从线性回归模型y=10+2x1+3x2+ε§7.1 岭回归估计的定义§7.1 岭回归估计的定义§7.1 岭回归估计的定义二、...

岭回归
第七章岭回归7.1岭回归估计的定义7.2岭回归估计的性质7.3岭迹分析7.4岭参数k的选择7.5用岭回归选择变量7.6本章 小结 学校三防设施建设情况幼儿园教研工作小结高血压知识讲座小结防范电信网络诈骗宣传幼儿园师德小结 与评注§7.1 岭回归估计的定义一、普通最小二乘估计带来的问题当自变量间存在复共线性时,回归系数估计的方差就很大,估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。例7.1假设已知x1,x2与y的关系服从线性回归模型y=10+2x1+3x2+ε§7.1 岭回归估计的定义§7.1 岭回归估计的定义§7.1 岭回归估计的定义二、岭回归的定义岭回归(RidgeRegression,简记为RR)提出的想法是很自然的。当自变量间存在复共线性时,|X′X|≈0,我们设想给X′X加上一个正常数矩阵kI,(k>0),那么X′X+kI接近奇异的程度就会比X′X接近奇异的程度小得多。考虑到变量的量纲问题,我们先对数据做 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 化,为了记号方便,标准化后的 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 阵仍然用X 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示§7.1 岭回归估计的定义我们称为β的岭回归估计,其中k称为岭参数。由于假设X已经标准化,所以X′X就是自变量样本相关阵,(7.2)式计算的实际是标准化岭回归估计。(7.2)式中因变量观测向量y可以经过标准化也可以未经标准化。显然,岭回归做为β的估计应比最小二乘估计稳定,当k=0时的岭回归估计就是普通的最小二乘估计。(7.2)§7.1 岭回归估计的定义表7.2§7.1 岭回归估计的定义§7.2岭回归估计的性质在本节岭回归估计的性质的讨论中,假定(7.2)式中因变量观测向量y未经标准化。§7.2岭回归估计的性质§7.2岭回归估计的性质§7.2岭回归估计的性质§7.3 岭迹分析§7.3 岭迹分析§7.4岭参数k的选择一、岭迹法岭迹法选择k值的一般原则是:(1)各回归系数的岭估计基本稳定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。§7.4岭参数k的选择§7.4岭参数k的选择二、方差扩大因子法§7.4岭参数k的选择三、由残差平方和来确定k值岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度以内,可以给定一个大于1的c值, 要求 对教师党员的评价套管和固井爆破片与爆破装置仓库管理基本要求三甲医院都需要复审吗 :SSE(k)<cSSE (7.3)寻找使(7.3)式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用。§7.5用岭回归选择变量岭回归选择变量的原则:(1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。(2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。(3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。§7.5用岭回归选择变量例7.2空气污染问题。Mcdonald和Schwing在参考文献[18]中曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。x1—Averageannualprecipitationininches平均年降雨量x2—AverageJanuarytemperatureindegreesF1月份平均气温x3—SameforJuly7月份平均气温x4—Percentof1960SMSApopulationaged65orolder年龄65岁以上的人口占总人口的百分比x5—Averagehouseholdsize每家人口数x6—Medianschoolyearscompletedbythoseover22年龄在22岁以上的人受教育年限的中位数§7.5用岭回归选择变量x7—Percentofhousingunitswhicharesound&withallfacilities住房符合标准的家庭比例数x8—Populationpersq.mileinurbanizedareas,1960每平方公里人口数x9—Percentnon-whitepopulationinurbanizedareas,1960非白种人占总人口的比例x10—Percentemployedinwhitecollaroccupations白领阶层人口比例x11—Percentoffamilieswithincome<$3000收入在3000美元以下的家庭比例x12—Relativehydrocarbonpollutionpotential碳氢化合物的相对污染势x13—Samefornitricoxides氮氧化合物的相对污染势x14—Sameforsulphurdioxide二氧化硫的相对污染势x15—Annualaverage%relativehumidityat1pm年平均相对湿度y—Totalage-adjustedmortalityrateper100,000每十万人中的死亡人数§7.5用岭回归选择变量计算X′X的15个特征为:4.5272,2.7547,2.0545,1.3487,1.22270.9605,0.6124,0.4729,0.3708,0.21630.1665,0.1275,0.1142,0.0460,0.0049条件数注:以上特征根是按照原文献的计算方式,自变量观测阵未包含代表常数项的第一列1,与用SPSS计算结果有所不同§7.5用岭回归选择变量§7.5用岭回归选择变量进行岭迹分析把15个回归系数的岭迹画到图7.4中,我们可看到,当k=0.20时岭迹大体上达到稳定。按照岭迹法,应取k=0.2。若用方差扩大因子法,因k=0.18时,方差扩大因子接近于1,当k在0.02~0.08时,方差扩大因子小于10,故应建议在此范围选取k。由此也看到不同的方法选取k值是不同的。§7.5用岭回归选择变量在用岭回归进行变量选择时,因为从岭迹看到自变量x4,x7,x10,x11和x15有较稳定且绝对值比较小的岭回归系数,根据变量选择的第一条原则,这些自变量可以去掉。又因为自变量x12和x13的岭回归系数很不稳定,且随着k的增加很快趋于零,根据上面的第二条原则这些自变量也应该去掉。再根据第三条原则去掉变量x3和x5。这个问题最后剩的变量是x1,x2,x6,x8,x9,x14。§7.5用岭回归选择变量例7.3Gorman-Torman例子(见参考文献[2])。本例共有10个自变量,X已经中心化和标准化了,X′X的特征根为:3.692,1.542,1.293,1.046,0.972,0.659,0.357,0.220,0.152,0.068最后一个特征根λ10=0.068,较接近于零。§7.5用岭回归选择变量条件数k=7.368<10。从条件数的角度看,似乎设计矩阵X没有复共线性。但下面的研究表明,作岭回归还是必要的。关于条件数,这里附带说明它的一个缺陷,就是当X′X所有特征根都比较小时,虽然条件数不大,但多重共线性却存在。§7.5用岭回归选择变量§7.5用岭回归选择变量§7.5用岭回归选择变量§7.5用岭回归选择变量§7.5用岭回归选择变量§7.5用岭回归选择变量§7.5用岭回归选择变量例7.4用岭回归方法处理民航客运数据的多重共线性问题。 SPSS软件的岭回归功能要用语法命令实现,菜单对话框中没有此功能。运行岭回归程序的步骤如下: §7.5用岭回归选择变量 1.进入SPSS软件,录入变量数据或调入已有的数据文件。 2.进入Syntax语法窗口。方法是依次点选File-New-Syntax。 3.录入如下的语法命令:INCLUDE'c:\ProgramFiles\SPSS\Ridgeregression.sps'.RIDGEREGDEP=y/ENTERx1x2x3x4x5. 4.运行。依次点选主菜单的Run-All. §7.5用岭回归选择变量 KRSQX1X2X3X4X5 .00000.998232.447386-2.48510-.083140.530538.563537 .05000.99037.223417.179160-.083524.370635.250365 .10000.98873.239543.214116-.073407.324407.227824 .15000.98729.243335.224695-.065966.303476.218969 .20000.98571.243539.228490-.059635.290298.213730 .25000.98393.242291.229504-.054040.280606.209925 .30000.98195.240355.229147-.049021.272829.206823 .35000.97978.238068.228038-.044482.266245.204118 .40000.97743.235599.226490-.040356.260473.201660 .45000.97493.233041.224676-.036590.255291.199367 .50000.97228.230447.222700-.033141.250558.197194 .55000.96949.227850.220626-.029975.246181.195112 .60000.96659.225269.218497-.027060.242095.193102 .65000.96359.222719.216340-.024372.238253.191151 .70000.96048.220206.214174-.021887.234619.189253 .75000.95729.217735.212012-.019587.231166.187400 .80000.95402.215309.209865-.017453.227873.185588 .85000.95067.212930.207737-.015471.224721.183814 .90000.94726.210599.205634-.013627.221696.182075 .95000.94380.208316.203560-.011910.218788.180369 1.0000.94028.206080.201515-.010308.215985.178695§7.5用岭回归选择变量图7.6(a)§7.5用岭回归选择变量通过上面的分析,我们决定剔除x1,用y与其余4个自变量做岭回归。把岭参数步长改为0.02,范围减小到0.2。这需要增加一句语法程序,点选主菜单的Window-SyntaxEditor返回语法窗口,语法命令如下:INCLUDE'c:\ProgramFiles\SPSS\Ridgeregression.sps'.RIDGEREGDEP=y/ENTERx2x3x4x5/START=0.0/STOP=0.2/INC=0.02.§7.5用岭回归选择变量 KRSQX2X3X4X5 .00000.99518-.232694-.134119.787697.516538 .02000.99273.191301-.104683.518190.333153 .04000.99161.260930-.097765.464546.305788 .06000.99084.287851-.093137.438607.295463 .08000.99012.301168-.089162.422128.289970 .10000.98938.308468-.085489.410136.286374 .12000.98859.312599-.082010.400676.283666 .14000.98773.314871-.078687.392810.281425 .16000.98680.315969-.075501.386027.279453 .18000.98580.316284-.072442.380023.277644 .20000.98474.316058-.069503.374602.275942§7.5用岭回归选择变量图7.6(b)§7.5用岭回归选择变量选取岭参数k=0.08。然后给定k=0.08,重新做岭回归,语法命令如下:INCLUDE'c:\ProgramFiles\SPSS\Ridgeregression.sps'.RIDGEREGDEP=y/ENTERx2x3x4x5/k=0.08.C:\ProgramFiles\SPSSInc\PASWStatistics18\Samples\EnglishNCLUDE'C:\ProgramFiles\SPSSInc\PASWStatistics18\Samples\English\Ridgeregression.sps'.RIDGEREGDEP=y/ENTERx1x2x3x4x5/k=0.3.§7.5用岭回归选择变量§7.5用岭回归选择变量§7.5用岭回归选择变量§7.5用岭回归选择变量§7.5用岭回归选择变量
本文档为【岭回归】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
金水文库
鑫淼网络科技有限公司主要经营:PPT设计 、课件制作,软文策划、合同简历设计、计划书策划案、各类模板等。公司秉着用户至上的原则服务好每一位客户
格式:ppt
大小:1MB
软件:PowerPoint
页数:0
分类:小学语文
上传时间:2020-05-10
浏览量:4