首页 一元线性回归

一元线性回归

举报
开通vip

一元线性回归 第九章 一元线性回归 第九章 一元线性回归 在社会经济中,各种经济变量之间联系紧密,一些因素影响另一些因素 的现象十分普遍。这些经济因素间存在的这种因果关系可以被人们利用从而 指导、控制或预测经济活动的发展。回归分析就是统计学中研究变量间关系 的一种重要方法。 本章将重点学习统计关系与回归分析的基本概念,一元线性回归模型的 建立与总离差平方和的分解和样本相关系数计算方法,一元线性回归显著性 检验与模型适合性分析方法。以及 E(Y)的区间估计和因变量 Y 的预测方 法。 9.1 回归分析...

一元线性回归
第九章 一元线性回归 第九章 一元线性回归 在社会经济中,各种经济变量之间联系紧密,一些因素影响另一些因素 的现象十分普遍。这些经济因素间存在的这种因果关系可以被人们利用从而 指导、控制或预测经济活动的发展。回归分析就是统计学中研究变量间关系 的一种重要方法。 本章将重点学习统计关系与回归分析的基本概念,一元线性回归模型的 建立与总离差平方和的分解和样本相关系数计算方法,一元线性回归显著性 检验与模型适合性分析方法。以及 E(Y)的区间估计和因变量 Y 的预测方 法。 9.1 回归分析的基本概念 9.1.1 因变量(Y)与自变量(X)之间的关系 根据因变量与自变量之间的关系不同,可以分为两种类型: 一种是函数关系,即对两个变量 X,Y 来说,当 X 值确定后,Y 值按照 一定的规律唯一确定,即形成一种精确的关系。例如:微积分学中所研究的 一般变量之间的函数关系就属于此种类型。 另一种是统计关系,即当 X 值确定后,Y 值不是唯一确定的,但大量统 计资料 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 明,这些变量之间还是存在着某种客观的联系。例如:图 9.1 在直 角坐标平面上,标出了 10 个观测点的坐标位置,他们表示以家庭为单位, 某种商品年需求量与该商品价格之间的 10 对调查数据。 9.1.2 回归分析 回归分析(Regression Analysis)就是应用统计方法,对大量的观测数 据进行整理、分析和研究,从而得出反映事物内部规律性的一些结论。 - 151 - 第九章 一元线性回归 图 9-1 商品需求量与价格的关系 9.2 一元线性回归模型 9.2.1 统计关系的两个特征 统计关系具有以下两个特征: (1) 因变量 Y 随自变量 X 有规律的变化,而统计关系直线描述了这一变 化的趋势。 (2)观测点散布在统计关系直线的周围,此种情况说明 Y 的变化除了受 自变量 X 影响以外,还受其他因素的影响。 因此试图建立这样一个回归模型,通过对此模型所作的一些假设,可以 体现出上述统计关系所刻划的特征。 9.2.2 一元线性回归模型假设 根据统计关系特征,可以进行下述假设: (1)对于自变量的每一水平 X,存在着 Y 的一个概率分布; (2)这些 Y 的概率分布的均值,有规律的随 X 变化而变化 9.2.3 一元线性回归模型 若 Y 与 X 具有统计关系而且是线性的,则可以建立下述一元线性回归模 型: Yi=β0+β1Xi+εi (i=1,2,···,n) (9-1) - 152 - 第九章 一元线性回归 其中,(Xi,Yi)表示(X,Y)的第i个观测值,β0,β1为参数,β0+β1Xi为反 映统计关系直线的分量,εi为反映在统计关系直线周围散布的随机分量 εi~N (0,σ2)。 对于任意Xi值有: ⑴Yi服从正态分布 ⑵E(Yi)=β0+β1Xi; ⑶ ; 22 )( σσ =iY ⑷各Yi间相互独立 Yi~N(β0+β1Xi,σ2) 。 散点图中需求量与价格之间线性统计关系的回归模型,具体描述如图 9-2。这里给出价格为 X=2 与 X=3 时,需求量 Y 的概率分布。根据以上回归 模型的假设,当 X=2 时,此时观测到的需求量 Y=3,该值是对应于 X 这一水 平的 Y 的一次随机抽取结果。 图 9-2 需求量与价格的线性统计关系 9.2.4 一元线性回归方程 对于图 9-1,在坐标直角平面上,标出了 10 个观测点的坐标位置,他 们表示以家庭为单位,某种商品年需求量与该商品价格之间的 10 对调查数 - 153 - 第九章 一元线性回归 据。若Y与X之间为线性关系,要想描述其关系,可以有无数条直线,需要在 其中选出一条最能反映Y与X之间关系规律的直线,即对于式 9-1,要适当选 取β0和β1 。因此要根据样本数据采用最小二乘法对参数β0和β1进行估计。 设β0和β1的估计值为b0和b1,则可建立一元线性回归模型如下: XbbY 10ˆ += (9-2) 假设找到一条回归直线如图 9-3 所示。一般而言,所求的b0和b1应能 使每个样本观测点(Xi,Yi)与回归直线之间的偏差尽可能小,即使观察值与拟 合值的偏差平方和Q达到最小。 图 9-3 回归方程原理图 令 (9-3) 2 1 10 )]([∑ = +−= n i ii XbbYQ 使Q达到最小值的b0和b1称为最小二乘估计量。 显然,Q是b0和b1的二元函数,根据微积分中极值的必要条件,首先分 别求Q关于b0和b1的偏导数: ∑ = +−−=∂ ∂ n i ii XbbYb Q 1 10 0 )]([2 ∑ = +−−=∂ ∂ n i iii XXbbYb Q 1 10 1 )]([2 然后令这两个偏导数等于零,整理后得正规方程组 - 154 - 第九章 一元线性回归 ∑∑ == =+ n i i n i i YXbnb 11 10 i n i i n i i n i i YXXbXb ∑∑∑ === =+ 11 2 1 1 0 (9-4) 解此方程组得到 n X X n YX YX XX YYXX b i n i i n i ii ii n i i n i ii 2 1 2 1 1 2 1 1 )( ))(( )( ))(( ∑∑ ∑ ∑∑ ∑ ∑ − − = − −− = = = = =    (9-5) XbYb 10 −= (9-6) 9.2.5 最小二乘估计量b0,b1的特性 (1) 线性特性 线性特性是指参数估计量b0,b1,分别是样本观测值Yi的线性组合,或者 b0和b1分别是变量Yi的线性参数。在统计学里,具有此种性质的估计量称为 线性估计。 由(9-5)式可以得出 ∑ ∑ ∑ ∑ = = = = − − = − −− = n i i n i ii n i i n i ii XX YXX XX YYXX b 1 2 1 1 2 1 1 )( )( )( ))(( 令 ∑ = − −= n i i i i XX XXC 1 2)( - 155 - 第九章 一元线性回归 则 (9-7) ∑ = = n i iiYCb 1 1 这表明b1是Yi的线性组合,即估计量b1为线性估计。同理,由(9-6)和 (9-7)式可以得到 (9-8) ∑ = = n i iiYkb 1 0 其中 XC n k ii −= 1 因此b0也是线性估计。 (2) 无偏性 无偏性是指b0和b1分别是β0和β1的无偏估计,可以证明 00 )( β=bE 11)( β=bE 9.3 总平方和分解 9.3.1 总平方和分解 由 YYYYYY iiii −+−=− ˆˆ 可以得到 ∑∑∑ ∑ === = −+−−+−=− n i i n i iii n i n i iii YYYYYYYYYY 1 2 11 1 22 )ˆ()ˆ)(ˆ()ˆ()( 其中,∑ = =−− n i iii YYYY 1 0)ˆ)(ˆ( 所以 ∑∑ ∑ == = −+−=− n i i n i n i iii YYYYYY 1 2 1 1 22 )ˆ()ˆ()( (9-9) - 156 - 第九章 一元线性回归 定义总离差平方和 ∑ = −= n i i YYSSTO 1 2)( 它表示没有 X 的影响,单纯考察数据中 Y 的变动情况。 定义回归平方和 ∑ = −= n i i YYSSR 1 2)ˆ( 表示各 的变动程度,该变动是由于回归直线中各XiYˆ i 的变动所引起的, 并且通过X对Y的线性影响表现出来。 图 9-4 总平方和分解图 定义误差平方和 ∑ = −= n i ii YYSSE 1 2)ˆ( 表示各Yi围绕所拟合的回归直线的变动程度,SSTO=SSR+SSE。 易得到: ∑ ∑ = =−= n i n i i i n Y YSSTO 1 2 12 )( - 157 - 第九章 一元线性回归 ] )( [ 1 2 122 1 ∑ ∑ = =−= n i n i i i n X XbSSR SSE=SSTO-SSR 9.3.2 自由度的分解 总平方和SSTO含有n个离差 ii YY − ,这些离差项之间有一个约束条件, 即∑ = =−n i i YY 1 0)( ,所以SSTO的自由度ƒ t为n-1。误差平方和SSE含有n个偏 差 ,但由于估计参数βii YY ˆ− 0和β1时用了两个正规方程(式 9-4),对于 有两个约束条件,故SSE的自由度ƒii YY ˆ− E为n-2。 回归平方和SSR的自由度fR为 1,这是因为回归函数中有两个参数,而 偏差 YYi −ˆ 有一个约束条件∑ = =− n i i YY 1 0)ˆ( ,故自由度是 2-1。 因此,自由度的分解可以表示为 n-1=1+(n-2) ƒ T=ƒ R+ƒ E 9.3.3 回归均方与误差均方 我们定义平方和除以它相应的自由度为均方。根据上面讨论的结果, 在回归分析中,有两个均方,即回归均方与误差均方。回归均方记为 MSR, 误差均方记为 MSE。 1 SSRMSR = (9-10) 2−= n SSEMSE (9-11) 9.4 样本确定系数与样本相关系数 9.4.1 样本确定系数 - 158 - 第九章 一元线性回归 当X与Y具有因果关系时,我们常把由于X的变动影响Y的变动的程度, 说成是由 X 这一因素解释 Y 的变动时能解释多少;即,Y 的总变差中能被 X 解释的那部分所占的比率,所占的比率愈大,说明 X 与 Y 相关的程度愈紧密。 因此,我们定义下式 SSTO SSE SSTO SSESSTO SSTO SSRr −=−== 12 (9-12) 为简单确定系数。r2的取值范围为 。 10 2 ≤≤ r 当样本的全部观察值都落在所拟和的回归直线上,这时SSE=0, SSR=SSTO-SSE=SSTO;所以r2=1。 当X与Y无关,Y的变差完全由于不确定因素(或随机因素)引起,此时, SSR=0;所以,r2=0。 一般地,r2常介于 0 与 1 之间,r2愈接近 1,说明Y与X线性相关程度愈 高。 9.4.2 样本相关系数 为了既能描述Y对于X的线性相关程度,又能描述随X变化Y变化的方向, 常采用另一种尺度,即r2的平方根,称为样本相关系数,定义如下: 2rr ±= 按定义可以导出 ∑∑ ∑ == = −− −− = n i i n i i n i ii YYXX YYXX r 1 2 1 2 1 )()( ))(( 它与b1具有 相同的分子,且r与b1的分母均为正,故r与b1有相同的符号。 11 ≤≤− r 。 各种情况如图 9-5 所示。 - 159 - 第九章 一元线性回归 图 9-5 简单确定系数图示 9.5 一元线性回归显著性检验 根据所得到的样本数据,采用最小二乘法总是可以拟合一条直线来描述 Y和X之间的关系。但是,样本资料具有随机性,因此,我们需要判断Y与X 之间是否确实存在着线性关系,也就是需要判断Y对X的回归函数是否确实是 一条直线。在回归函数E(Y)=β0+β1X中,如果β1=0,则对于X的一切水平 E(Y)=β0,说明Y的变化与X的变化无关,因而,我们不能通过X去预测Y。所 以,对模型Yi=β0+β1Xi+εi 检验β1=0 是否成立,等价于检验Y与X之间是 否存在线性关系。 9.5.1 b1的抽样分布 为了检验β1=0 是否成立,需要构造一个合适的统计量,因此,首先讨 论b1的抽样分布。 因为b1具有线性特性,即b1是观测值Yi的线性组合,而Yi是正态分布的随 机变量,且相互独立,故b1也是服从正态分布的随机变量。 又因b1具有无偏性,即其均值E(b1)=β1。 以下可以证明,b1的方差 ∑ = − = n i i XX b 1 2 2 1 2 )( )( σσ (9-13) - 160 - 第九章 一元线性回归 因为 ,且Y∑ = = n i iiYCb 1 1 i相互独立,其中 ∑ = − −= n i i i i XX XXC 1 2)( ∑∑∑ = == − === n i i n i ii n i ii XX YCYCb 1 2 2 1 22 1 2 1 2 )( )()()( σσσσ 所以,b1是服从 ) )( ,( 1 2 2 1 ∑ = −n i i XX N σβ 的随机变量。 9.5.2 F 检验 在一元线性回归中,为了检验Y对于X线性关系的统计显著性,对β1进 行F检验 10 提出假设:H0:β1=0,H1:β1≠0。若原假设成立表明Y与X无显著 线性关系。 20 构造并计算统计量: E R f SSE f SSR F = (9-14) 30 查F分布临界值表,得临界值 )2,1( −nFα 40 比较:若F< )2,1( −nFα 接受H0,认为Y与X不存在一元线性关系。 - 161 - 第九章 一元线性回归 表 9-1 方差分析表 变差 来源 平方和 自由 度 均方差 F 比 回归 2 1 )(∑ = −∧ −= n i i YYSSR 1 1 SSRMSR = 误差 2 1 )(∑ = ∧−= n i ii YYSSE n-2 2−= n SSEMSE MSE MSRF = 总和 2 1 )(∑ = −−= n i i YYSSTO n-1 ---------- --------- 若F> )2,1( −nFα 拒绝H0,认为Y与X存在一元线性关系。 将各部分计算结果集中列于方差分析表内如表 9-1 所示 9.5.3 t 检验 1° 提出假设 H0:β1=0,H1:β1≠0。若原假设成立表明Y与X无显著 线性关系。 2° 构造并计算统计量: )( 1 1 bs bt = (9-15) 其中 ∑ −− = 2 1 )( )( XX MSEbs i 3°查 t 分布临界值表,得临界值 )2(2/ −ntα 4°比较: 若 t ,拒绝H)2(2/ −ntα 0 9.5.4 利用样本相关系数进行统计检验 - 162 - 第九章 一元线性回归 1°提出假设 H0: 0=ρ H1: 0≠ρ ( ρ :为总体Y与X的线性相关系数) 2°计算简单相关系数γ 3°查相关系数临界值表,得临界值 )2( −nαγ 4°比较: 若 <γ αγ , 接受H0 ,认为Y与X不存在一元线性关系。 若 >γ αγ , 拒绝H0 9.6 模型适合性分析 在对一元线性回归模型的适合性进行分析时,由于误差项ε 是不可观测 或测量的, 需借助残差 的图像,来考察模型是否存在以下情况: 异方差性和 iii YYe ∧−= 自相关性。 9.6.1 误差项的异方差性检验 若 iε 不具有常数方差,称模型存在异方差性。此时,残差如图 9-6 所示, 数据点呈现发散或收敛趋势。 在此种情况下,最小二乘法失效,因此需按照 一定方法对数据进行变换,在计量经济学课程中,对此有详细讲述。 - 163 - 第九章 一元线性回归 图 9-6 误差项具有异方差性的残差图 2、误差项的自相关性检验 如果观测值是来自一个时间序列的样本,则很可能出现误差项 iε 是不 独立的,将残差et与时间t作残差图,将呈现出有规则的变化趋势。 图 9-7 误差项具有负自相关性的残差图 - 164 - 第九章 一元线性回归 图 9-8 误差项具有正自相关性的残差图 我们称模型存在自相关(Autocorrelation)现象,也需按一定方法对数 据进行修正,这在计量经济学课程中也有详细论述。 9.7 E(Y)的区间估计 因为误差项 iε 的方差(或 的方差) 通常是未知的,因此, 的 方差 也是未知的。由于 MSE 是 的无偏估计量,故可以用 MSE 代 替 ,从而得到 的估计方差,记为 。 iY 2σ 0ˆY )ˆ( 0 2 Yσ 2σ 2σ 0ˆY )ˆ( 02 YS ] )( )(1[)ˆ( 1 2 2 0 0 2 ∑ = − −+= n i i XX XX n MSEYS (9-16) 可以证明,对于一元线性模型,以下随机变量 )( )(ˆ 0 00 YS YEYt −= (9-17) 服从自由度为n-2 的t分布。因此可以得到,在置信度为 1-α时,E(Y0) 的置信区间为: - 165 - 第九章 一元线性回归 )ˆ()2(ˆ)()ˆ()2(ˆ 02/0002/0 YSntYYEYSntY −+≤≤−− αα (9-18) 其中: ] )( )(1[)ˆ( 1 2 2 0 0 ∑ = − −+= n i i XX XX n MSEYS 9.8 因变量 Y 的预测 设: (9-19) 000 YˆYd −= 因为 iε (i=1,2,…,n)是相互独立的,故 与 也是相互独立的,所 以有: 0Y 0ˆY )ˆ()ˆ()()ˆ()( 0 22 0 2 0 2 00 2 0 2 YYYYYd σσσσσσ +=+=−= (9-20) )ˆ( 0 2 Yσ 中也含有 ,而 未知,故用它的无偏估计量 MSE 代替,于 是得到 的无偏估计量,记为 。 2σ 2σ )( 0 2 dσ )( 02 dS ] )( )(11[ )ˆ()( 1 2 2 0 0 2 0 2 ∑ − −++= += = n i i XX XX n MSE YSMSEdS     (9-21) 可以证明,随机变量 ∑ − −++ −= = n i i XX XX n YYt 1 2 2 0 00 )( )(11 ˆ σ (9-22) 服从自由度为n-2 的t分布。在给定置信度 1-α情况下,因变量单个值Y0 的置信区间为: )()2(ˆ)()2(ˆ 02/0002/0 dSntYYdSntY −+≤≤−− αα (9-23) - 166 - 第九章 一元线性回归 习 题 1.有 10 个同类企业的生产性固定资产价值和工业总产值资料如下: 企业编号 生产性固定资产价值 (万元) 工业总产值(万元) 1 2 3 4 5 6 7 8 9 10 318 910 200 409 415 502 314 1210 1022 1225 524 1019 638 815 913 928 605 1516 1219 1624 合计 6525 9801 a.说明两变量之间的相关方向; b.建立直线回归方程; c.计算估计标准差; d.估计生产性固定资产(自变量)为 1100 万元时总产值(因变量)的可能 值。 2.下表中的数据是主修信息系统专业并获得企业管理学士学位的学生,毕业 后的月薪(用 y 表示)和他在校学习时的总评分(用 x 表示)。由这些数据 估计的回归方程是 。 xy 1.5815.1290ˆ += 总评分 月薪/元 总评分 月薪/元 2.6 2800 3.2 3000 3.4 3100 3.5 3400 3.6 3500 2.9 3100 a.计算 SST,SSR 和 SSE 。 b.计算样本确定系数r2。请对拟合优度做出评述。 c.样本相关系数的数值是多少? 3.根据上一练习 a.t 检验是否标明在总评分和月薪之间存在一个显著的关系?你的结论是 什么?取α=0.05。 - 167 - 第九章 一元线性回归 b.利用 F 检验,检验变量间的显著关系。你的结论是什么?取α=0.05。 c.做出 ANOVA 表。 4.若 x 表示公寓住宅的年租金(千元),y 表示该公寓住宅的销售价格(千 元),一家房地产公司的营业部门对 x 和 y 之间的关系进行回归分析。采集 了近期出售的一些公寓住宅建筑的数据,经过计算机处理得到的输出如下。 回归方程是 xy 21.70.20ˆ += 预测量 系数 标准差 t 值 常数 20.000 3.2213 6.21 x 7.210 1.3626 5.29 方差分析 来源 自由度 平方和 回归 1 41587.3 误差 7 总计 8 51984.1 a.样本中有多少公寓住宅建筑? b.写出估计的回归方程。 c.s(b1)的值是多少? 5.某公司采集了市场上办公用房的空闲率和租金率的数据。对于 18 个选取 的销售地区,下面是这些地区的中心商业区的综合空闲率(%)和平均租金 率(元/平米)的数据。 地区编号 综合空闲(%) 平均租金率(元/平方米) 1 21.9 18.54 2 6.0 33.70 3 22.8 19.67 4 18.1 21.01 5 12.7 35.09 6 14.5 19.41 7 20.0 25.28 8 19.2 17.02 9 16.0 24.04 10 6.6 31.42 11 15.9 18.74 12 9.2 26.76 13 19.7 27.72 14 20.0 18.20 15 8.3 25.00 - 168 - 第九章 一元线性回归 16 17.1 29.78 17 10.8 37.03 18 11.1 28.64 a.用横轴表示空闲率,对这些数据画出散点图。 b.这两个变量之间能显示出什么关系吗? c.求出在办公用房的综合空闲率已知时,能用来预测平均租金率的估计的回 归方程。 d.在 0.05 显著性水平下检验关系的显著性。 e.估计的回归方程对数据的拟合好吗?请作出解释。 f.在一个综合空闲率是 25%的中心商业区,预测该市场的期望租金率。 g.若有某市的中心商业区,综合空闲率是 11.3%,预测该市中心商业区的期 望租金率。 - 169 - 9.3 总平方和分解 9.5 一元线性回归显著性检验 9.6 模型适合性分析
本文档为【一元线性回归】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_808798
暂无简介~
格式:pdf
大小:277KB
软件:PDF阅读器
页数:19
分类:理学
上传时间:2013-11-06
浏览量:259