首页 一元线性回归

一元线性回归

举报
开通vip

一元线性回归一元线性回归 一、一元线性回归模型的数学形式 对两边求数学期望和方差得: , 随机变量y的期望不等,方差相等,因而 是独立随机变量,但并不同分布,而 是独立同分布的随机变量。 估计参数 在实际应用中表示自变量x每增加一个单位时因变量y平均增加数量。 一元回归的一般形式用矩阵表示: , , , ,模型表示有: 其中 为n阶单位矩阵。 二、参数估计 需注意,极大似然估计是在 的正态分布假设下求得的,而最小二乘估计则对分布假设没有要求,另外, 是独立的正态分布样本,但并不是同分布的,期望值 ...

一元线性回归
一元线性回归 一、一元线性回归模型的数学形式 对两边求数学期望和方差得: , 随机变量y的期望不等,方差相等,因而 是独立随机变量,但并不同分布,而 是独立同分布的随机变量。 估计参数 在实际应用中 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示自变量x每增加一个单位时因变量y平均增加数量。 一元回归的一般形式用矩阵表示: , , , ,模型表示有: 其中 为n阶单位矩阵。 二、参数估计 需注意,极大似然估计是在 的正态分布假设下求得的,而最小二乘估计则对分布假设没有要求,另外, 是独立的正态分布样本,但并不是同分布的,期望值 不相等。 三、最小二乘估计的性质 1、线性性:估计量 为随机变量 的线性函数 2、无偏性: 是 无偏估计 3、 的方差 , 从上面两个式子可以看出,要想使 的估计值 更稳定,在收集数据时,就应该考虑x的取值尽可能分散一些,不要挤在一块,样本量应尽可能大一些,样本量n太小时估计量的稳定性肯定不会太好。 从 ; ;其中 可以得到: ,在 =0时, 的协方差为0,此时 不相关,在正态假定下独立;在 0时不独立。它揭示了回归系数之间的关系。 四、回归方程的显著性检验 回归方程中主要关心的是回归系数 的显著性,这决定y对x的回归是否成立,而对回归常数项 的显著性并不关心。 检验统计量与p值的关系是: =p值; 例如:检验统计量t与p值的关系是: =p值,其中t为检验统计量,是随机变量,t值是t统计量的样本值。可以看出p值越小,|t值|越大,p值越大,|t值|越小。当p值 时,|t值| ,此时应拒绝原假设。反之则接受原假设。因此可以用p值代替t值作判断。 用p值代替t值作判定有几方面的优越性: 第一,用p值作检验不需要查表,只需直接用p值与显著性水平 相比,当p值 时即拒绝原假设,当p值> 时即接受原假设,而用t值做检验需要查t分布表求临界值。 第二,用p值作检验具有可比性,而用t值作检验与自由度有关,可比性差。 第三,用p值作检验可以准确地知道检验的显著性,实际上p值就是犯弃真错误的真实概率,也就是检验的真实显著性。 五、相关系数 在一元线性回归的回归系数 的符号与相关系数r的符号相同。对于对称分布的统计量,单侧检验的p值的2倍就是双侧检验的p值。 用样本相关系数r判断两变量间相关程度的强弱时一定要注意样本量的大小,只有当样本量较大时用样本相关系数r判断两变量间相关程度的强弱才可信服。 需要正确区分相关系数显著性检验与相关程度强弱的关系,相关系数的t检验显著只是表示总体相关系数 显著不为零,并不能表示相关程度高。例,如果有A,B两位同学,A同学计算出r=0.8,但显著性检验没有通过;B同学计算出r=0.1,而声称此相关系数高度显著,能肯定这两位同学都出错了吗?这个问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 和样本量有关。观察检验统计量 ,可以看到t值不仅与样本相关系数r有关,同时与样本量n有关,对同样的相关系数r,样本量n大时|t|就大,样本量n小时|t|就小。实际上,对任意固定的非0的r值,只要样本量n充分大就能使|t|足够大,从而得到相关系数高度显著的结论。明白这个道理后你就会相信A,B两位同学说的都可能是正确的。在样本量充分大时,可以把样本相关系数r作为总体相关系数 ,不必关系显著性检验的结果,只需要结合数据的实际背景判断r值表示的相关性的强弱。 六、三种检验的关系 对一元线性回归,F检验,t检验,相关系数的显著性检验结果是完全一致的,回归系数显著性的t检验与相关系数显著性的t检验是完全等价的,F统计量则是这两个t统计量的平方。 七、决定系数 决定系数 是一个回归直线与样本观测值拟合优度的相对指标,反映了因变量的变异中能用自变量解释的比例。 需要注意一下几个方面问题: 第一,当样本量较小时,得到一个大的决定系数,但是这个大的决定系数很可能是虚假现象。为此需要结合样本量和自变量个数对决定系数做调整,计算调整的决定系数。 第二,即使样本量并不小,决定系数很大,例如0.9,也并不能肯定自变量与因变量之间的关系就是线性的,因为有可能曲线回归的效果更好。尤其是当自变量的取值范围很窄时,线性回归的效果通常是较好的,这样的线性回归方程是不能用于外推预测的。 第三,当算出一个很小的决定系数r^2,例如r^2=0.1时,与相关系数的检验显著性相似,这时如果样本容量n不大,就会得到线性回归不显著的检验结果,而在样本容量n很大时,检验结果仍然会得出线性回归显著的结论。不论检验结果是否显著,这时都应该尝试改进回归的效果。例如增加自变量,改用曲线回归等。 八、残差 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 1、残差图 (a)线性关系成立;(b)x加入二次方项;(c)存在异方差,需要改变x形式 (d)残差与时间t有关。可能遗漏变量或者存在序列相关,需要引入变量。 2、残差的性质 性质1: 性质2: 其中 为杠杆值。靠近 附近的点相应的残差方差较大,远离 附近的点相应的残差方差较小,远离 的点数目必然较少,回归线容易“照顾”到这样的少数点,使得回归线附近这些点,因而远离 附近的 相应的残差方差较小。 性质3:残差满足约束条件: ,这表明残差 是相关的。 3、改进的残差 标准化残差:   学生化残差: ,普通残差 的方差不等,不利于比较。标准化残差使残差具有可比性,| |>3时的相应观测值即判断为异常值,但 没有解决方差不等的问题。而学生化残差 则进一步解决了方差不等的问题,在寻找异常值时,用学生化残差优于普通残差。 九、回归系数的区间估计 置信区间的长度越短, 说明 关于失联党员情况说明岗位说明总经理岗位说明书会计岗位说明书行政主管岗位说明书 估计量 与 接近程度越好,估计值就越精确;置信区间的长度越长,说明估计量 与 接近程度越差,估计值就越不精确。 十、预测与控制 1、单值预测 ,预测目标 是一个随机变量,因而这个预测不能用普通的无偏性来衡量, ,说明预测值 与目标值 有相同的均值。 2、区间预测 对应于某个特定的 的实际值 以1- 的概率被区间( )所包含,即: ,对因变量的区间预测又分为两种情况,一种是对因变量新值的却见预测,另一种是对因变量新值平均值的区间预测。 因变量新值的区间预测: 的置信概率为 的置信区间为: ,其中: 为新值 的杠杆值。对给定的显著性水平 ,样本容量n越大, 越大, 越靠近 ,则置信区间长度越短,此时的预测精确度就高。所以为了提高预测精度,样本量n应越大越好,采集数据 不能太集中。在进行预测时,所给定的 不能偏离 太大,太大时,预测结果肯定不好;如果给定 = 时,置信区间长度最短,这时的预测结果最好。如果在自变量观测值之外的范围作预测,精度就较差。这种情况进一步说明当x的取值发生较大变化时,即 很大时,预测就不准。所以在做预测时一定要看 与 相差多大,相差太大时,效果肯定不好。尤其是在经济问题的研究中做长期预测时,x的取值 肯定距当时建模时采集样本的 相差太大。 3、控制问题 控制问题相当于预测的反问题。比如研究近年的经济增长率时,希望增长率能保持在8%~12%;用数学表达式描述,即要求 ,以1- 的概率保证把目标值y控制在 中,即 =1- ,用近似的预测区间来确定x,可由不等式组表示: ,求出x的取值区间即可。控制问题要求因变量y与自变量x之间有因果关系,经常用在工业生产的质量控制中。在经济问题中,经济变量之间有强的相关性,形成一个综合整体,仅控制回归方程中的一个或几个自变量,而忽视了回归方程之外的其他变量,往往达不到预期的效果。 十一、有关回归假设检验问题 对于一元线性回归方程显著性的检验,只要方法是F检验,即 .那么当接受 或者是拒绝 意味着什么?在做F检验时,假定y对x的回归形式为线性关系,而不是曲线关系。这时如果拒绝了 ,就说明x与y之间有显著的线性关系,回归方程刻画了x与y的这种线性关系。然而,对于一个实际问题,变量x与y之间到底是一个什么样的关系?并不十分清楚。另外样本数据是否存在异常值,是否存在周期性,往往从数据的表面并不能明显看出。运用普通最小二乘OLSE法估计模型的参数是在模型满足一些基本假定时才有效,如果模型的基本假定显著地出错,可能导致模型结论严重歪曲。 一般情况下,当 被接受时,表明y的取值倾向不随x的值按线性关系变化。这种状况可能是由于变量y与x之间的相关关系不显著,也可能虽然变量y与x之间相关关系显著,但是这种相关关系不是线性的而是非线性的。 当 被拒绝时,如果没有其他信息,仅凭拒绝 ,只能认为因变量y对自变量x的线性回归是有效的,但是还没有说明回归的有效程度,不能断言y与x之间就一定是线性相关关系,而不是曲线关系或者其他关系。这些问题还需要借助决定系数、散点图、残差图等工具做进一步分析。 看下面这四组数据,用EXCEL进行回归分析: 第一组 第二组 第三组 第四组 x y x y x y x y 4 4.26 4 3.1 4 5.39 8 6.58 5 5.68 5 4.74 5 5.73 8 5.76 6 7.24 6 6.13 6 6.08 8 7.71 7 4.82 7 7.26 7 6.44 8 8.84 8 6.95 8 8.14 8 6.77 8 8.47 9 8.81 9 8.77 9 7.11 8 7.04 10 8.04 10 9.14 10 7.46 8 5.25 11 8.33 11 9.26 11 7.81 8 5.56 12 10.84 12 9.13 12 8.15 8 7.91 13 7.58 13 8.74 13 12.74 8 6.89 14 9.96 14 8.1 14 8.84 19 12.5                 第一组                                    第二组 第三组                                  第四组 这四组数据得到的经验回归方程都是相同的,都是 ,决定系数都是 =0.667,相关系数 =0.816。这四组数据所建立的回归方程是相同的,决定系数 ,F统计量也相同,且均通过显著性检验,说明这四组数据y与x之间都有显著的线性相关关系。然而,变量y与x之间是否就有相同的线性相关关系呢?由上述四组数据的散点图可以看到,变量y与x之间的关系是很不相同的。第一组,直线作为y与x间关系的拟合是合适的,回归方程刻画了变量y与x间的线性相关关系。第二组,变量y与x之间的相关关系应当是曲线关系,尽管回归方程也通过了显著性检验,但由直线方程去揭示它们的相关关系很不合适。如果用y对x作曲线回归,必可以有很大的提高决定系数 ,如果进一部做残差分析会发现残差点的分布不具有随机性原则。第三组,变量y与x之间存在着线性关系,但用直线去拟合这种关系不太理想。因为第三组数据中第10对数据远离回归直线,可以认为是异常值。如果将它剔除,用其余的10对数据重新计算经验回归方程,拟合效果会非常好。第四组,回归直线的斜率完全取决于两个点,这种情况所得到的经验回归方程是很不可信的。实际上自变量x只取了两个不同的值,因而不能断言y与x之间的何种关系。 这个例子说明,当拒绝假设 时,说y与x之间存在线性相关关系,但是并不能完全肯定线性关系就是y与x之间关系最好的描述,可能y与x之间更准确的关系应该是曲线,或者存在异常值等原因造成y与x之间虚假的线性关系。在实际应用中,不应局限于一种方法去分析判断要得到确实可信的结果,应该F检验,决定系数,散点图,残差分析等一起使用,得到一致的结果时,才可下定论。
本文档为【一元线性回归】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_841159
暂无简介~
格式:doc
大小:187KB
软件:Word
页数:13
分类:
上传时间:2019-01-13
浏览量:35