第九章 一元线性回归
第九章 一元线性回归
在社会经济中,各种经济变量之间联系紧密,一些因素影响另一些因素
的现象十分普遍。这些经济因素间存在的这种因果关系可以被人们利用从而
指导、控制或预测经济活动的发展。回归分析就是统计学中研究变量间关系
的一种重要方法。
本章将重点学习统计关系与回归分析的基本概念,一元线性回归模型的
建立与总离差平方和的分解和样本相关系数计算方法,一元线性回归显著性
检验与模型适合性分析方法。以及 E(Y)的区间估计和因变量 Y 的预测方
法。
9.1 回归分析的基本概念
9.1.1 因变量(Y)与自变量(X)之间的关系
根据因变量与自变量之间的关系不同,可以分为两种类型:
一种是函数关系,即对两个变量 X,Y 来说,当 X 值确定后,Y 值按照
一定的规律唯一确定,即形成一种精确的关系。例如:微积分学中所研究的
一般变量之间的函数关系就属于此种类型。
另一种是统计关系,即当 X 值确定后,Y 值不是唯一确定的,但大量统
计资料
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
明,这些变量之间还是存在着某种客观的联系。例如:图 9.1 在直
角坐标平面上,标出了 10 个观测点的坐标位置,他们表示以家庭为单位,
某种商品年需求量与该商品价格之间的 10 对调查数据。
9.1.2 回归分析
回归分析(Regression Analysis)就是应用统计方法,对大量的观测数
据进行整理、分析和研究,从而得出反映事物内部规律性的一些结论。
- 151 -
第九章 一元线性回归
图 9-1 商品需求量与价格的关系
9.2 一元线性回归模型
9.2.1 统计关系的两个特征
统计关系具有以下两个特征:
(1) 因变量 Y 随自变量 X 有规律的变化,而统计关系直线描述了这一变
化的趋势。
(2)观测点散布在统计关系直线的周围,此种情况说明 Y 的变化除了受
自变量 X 影响以外,还受其他因素的影响。
因此试图建立这样一个回归模型,通过对此模型所作的一些假设,可以
体现出上述统计关系所刻划的特征。
9.2.2 一元线性回归模型假设
根据统计关系特征,可以进行下述假设:
(1)对于自变量的每一水平 X,存在着 Y 的一个概率分布;
(2)这些 Y 的概率分布的均值,有规律的随 X 变化而变化
9.2.3 一元线性回归模型
若 Y 与 X 具有统计关系而且是线性的,则可以建立下述一元线性回归模
型:
Yi=β0+β1Xi+εi (i=1,2,···,n) (9-1)
- 152 -
第九章 一元线性回归
其中,(Xi,Yi)表示(X,Y)的第i个观测值,β0,β1为参数,β0+β1Xi为反
映统计关系直线的分量,εi为反映在统计关系直线周围散布的随机分量
εi~N (0,σ2)。
对于任意Xi值有:
⑴Yi服从正态分布
⑵E(Yi)=β0+β1Xi;
⑶ ; 22 )( σσ =iY
⑷各Yi间相互独立 Yi~N(β0+β1Xi,σ2) 。
散点图中需求量与价格之间线性统计关系的回归模型,具体描述如图
9-2。这里给出价格为 X=2 与 X=3 时,需求量 Y 的概率分布。根据以上回归
模型的假设,当 X=2 时,此时观测到的需求量 Y=3,该值是对应于 X 这一水
平的 Y 的一次随机抽取结果。
图 9-2 需求量与价格的线性统计关系
9.2.4 一元线性回归方程
对于图 9-1,在坐标直角平面上,标出了 10 个观测点的坐标位置,他
们表示以家庭为单位,某种商品年需求量与该商品价格之间的 10 对调查数
- 153 -
第九章 一元线性回归
据。若Y与X之间为线性关系,要想描述其关系,可以有无数条直线,需要在
其中选出一条最能反映Y与X之间关系规律的直线,即对于式 9-1,要适当选
取β0和β1 。因此要根据样本数据采用最小二乘法对参数β0和β1进行估计。
设β0和β1的估计值为b0和b1,则可建立一元线性回归模型如下:
XbbY 10ˆ += (9-2)
假设找到一条回归直线如图 9-3 所示。一般而言,所求的b0和b1应能
使每个样本观测点(Xi,Yi)与回归直线之间的偏差尽可能小,即使观察值与拟
合值的偏差平方和Q达到最小。
图 9-3 回归方程原理图
令 (9-3)
2
1
10 )]([∑
=
+−=
n
i
ii XbbYQ
使Q达到最小值的b0和b1称为最小二乘估计量。
显然,Q是b0和b1的二元函数,根据微积分中极值的必要条件,首先分
别求Q关于b0和b1的偏导数:
∑
=
+−−=∂
∂ n
i
ii XbbYb
Q
1
10
0
)]([2
∑
=
+−−=∂
∂ n
i
iii XXbbYb
Q
1
10
1
)]([2
然后令这两个偏导数等于零,整理后得正规方程组
- 154 -
第九章 一元线性回归
∑∑
==
=+
n
i
i
n
i
i YXbnb
11
10
i
n
i
i
n
i
i
n
i
i YXXbXb ∑∑∑
===
=+
11
2
1
1
0 (9-4)
解此方程组得到
n
X
X
n
YX
YX
XX
YYXX
b
i
n
i
i
n
i
ii
ii
n
i
i
n
i
ii
2
1
2
1
1
2
1
1
)(
))((
)(
))((
∑∑
∑ ∑∑
∑
∑
−
−
=
−
−−
=
=
=
=
=
(9-5)
XbYb 10 −=
(9-6)
9.2.5 最小二乘估计量b0,b1的特性
(1) 线性特性
线性特性是指参数估计量b0,b1,分别是样本观测值Yi的线性组合,或者
b0和b1分别是变量Yi的线性参数。在统计学里,具有此种性质的估计量称为
线性估计。
由(9-5)式可以得出
∑
∑
∑
∑
=
=
=
=
−
−
=
−
−−
= n
i
i
n
i
ii
n
i
i
n
i
ii
XX
YXX
XX
YYXX
b
1
2
1
1
2
1
1
)(
)(
)(
))((
令
∑
=
−
−= n
i
i
i
i
XX
XXC
1
2)(
- 155 -
第九章 一元线性回归
则 (9-7) ∑
=
=
n
i
iiYCb
1
1
这表明b1是Yi的线性组合,即估计量b1为线性估计。同理,由(9-6)和
(9-7)式可以得到
(9-8) ∑
=
=
n
i
iiYkb
1
0
其中
XC
n
k ii −= 1
因此b0也是线性估计。
(2) 无偏性
无偏性是指b0和b1分别是β0和β1的无偏估计,可以证明
00 )( β=bE 11)( β=bE
9.3 总平方和分解
9.3.1 总平方和分解
由 YYYYYY iiii −+−=− ˆˆ
可以得到
∑∑∑ ∑
=== =
−+−−+−=−
n
i
i
n
i
iii
n
i
n
i
iii YYYYYYYYYY
1
2
11 1
22 )ˆ()ˆ)(ˆ()ˆ()(
其中,∑
=
=−−
n
i
iii YYYY
1
0)ˆ)(ˆ(
所以
∑∑ ∑
== =
−+−=−
n
i
i
n
i
n
i
iii YYYYYY
1
2
1 1
22 )ˆ()ˆ()( (9-9)
- 156 -
第九章 一元线性回归
定义总离差平方和 ∑
=
−=
n
i
i YYSSTO
1
2)(
它表示没有 X 的影响,单纯考察数据中 Y 的变动情况。
定义回归平方和 ∑
=
−=
n
i
i YYSSR
1
2)ˆ(
表示各 的变动程度,该变动是由于回归直线中各XiYˆ i 的变动所引起的,
并且通过X对Y的线性影响表现出来。
图 9-4 总平方和分解图
定义误差平方和 ∑
=
−=
n
i
ii YYSSE
1
2)ˆ(
表示各Yi围绕所拟合的回归直线的变动程度,SSTO=SSR+SSE。
易得到:
∑ ∑
=
=−=
n
i
n
i
i
i n
Y
YSSTO
1
2
12
)(
- 157 -
第九章 一元线性回归
]
)(
[
1
2
122
1 ∑ ∑
=
=−=
n
i
n
i
i
i n
X
XbSSR
SSE=SSTO-SSR
9.3.2 自由度的分解
总平方和SSTO含有n个离差 ii YY − ,这些离差项之间有一个约束条件,
即∑
=
=−n
i
i YY
1
0)( ,所以SSTO的自由度ƒ t为n-1。误差平方和SSE含有n个偏
差 ,但由于估计参数βii YY ˆ− 0和β1时用了两个正规方程(式 9-4),对于
有两个约束条件,故SSE的自由度ƒii YY ˆ− E为n-2。
回归平方和SSR的自由度fR为 1,这是因为回归函数中有两个参数,而
偏差 YYi −ˆ 有一个约束条件∑
=
=−
n
i
i YY
1
0)ˆ( ,故自由度是 2-1。
因此,自由度的分解可以表示为
n-1=1+(n-2)
ƒ T=ƒ R+ƒ E
9.3.3 回归均方与误差均方
我们定义平方和除以它相应的自由度为均方。根据上面讨论的结果,
在回归分析中,有两个均方,即回归均方与误差均方。回归均方记为 MSR,
误差均方记为 MSE。
1
SSRMSR = (9-10)
2−= n
SSEMSE (9-11)
9.4 样本确定系数与样本相关系数
9.4.1 样本确定系数
- 158 -
第九章 一元线性回归
当X与Y具有因果关系时,我们常把由于X的变动影响Y的变动的程度,
说成是由 X 这一因素解释 Y 的变动时能解释多少;即,Y 的总变差中能被 X
解释的那部分所占的比率,所占的比率愈大,说明 X 与 Y 相关的程度愈紧密。
因此,我们定义下式
SSTO
SSE
SSTO
SSESSTO
SSTO
SSRr −=−== 12 (9-12)
为简单确定系数。r2的取值范围为 。 10 2 ≤≤ r
当样本的全部观察值都落在所拟和的回归直线上,这时SSE=0,
SSR=SSTO-SSE=SSTO;所以r2=1。
当X与Y无关,Y的变差完全由于不确定因素(或随机因素)引起,此时,
SSR=0;所以,r2=0。
一般地,r2常介于 0 与 1 之间,r2愈接近 1,说明Y与X线性相关程度愈
高。
9.4.2 样本相关系数
为了既能描述Y对于X的线性相关程度,又能描述随X变化Y变化的方向,
常采用另一种尺度,即r2的平方根,称为样本相关系数,定义如下:
2rr ±= 按定义可以导出
∑∑
∑
==
=
−−
−−
=
n
i
i
n
i
i
n
i
ii
YYXX
YYXX
r
1
2
1
2
1
)()(
))((
它与b1具有
相同的分子,且r与b1的分母均为正,故r与b1有相同的符号。 11 ≤≤− r 。
各种情况如图 9-5 所示。
- 159 -
第九章 一元线性回归
图 9-5 简单确定系数图示
9.5 一元线性回归显著性检验
根据所得到的样本数据,采用最小二乘法总是可以拟合一条直线来描述
Y和X之间的关系。但是,样本资料具有随机性,因此,我们需要判断Y与X
之间是否确实存在着线性关系,也就是需要判断Y对X的回归函数是否确实是
一条直线。在回归函数E(Y)=β0+β1X中,如果β1=0,则对于X的一切水平
E(Y)=β0,说明Y的变化与X的变化无关,因而,我们不能通过X去预测Y。所
以,对模型Yi=β0+β1Xi+εi 检验β1=0 是否成立,等价于检验Y与X之间是
否存在线性关系。
9.5.1 b1的抽样分布
为了检验β1=0 是否成立,需要构造一个合适的统计量,因此,首先讨
论b1的抽样分布。
因为b1具有线性特性,即b1是观测值Yi的线性组合,而Yi是正态分布的随
机变量,且相互独立,故b1也是服从正态分布的随机变量。
又因b1具有无偏性,即其均值E(b1)=β1。
以下可以证明,b1的方差 ∑
=
−
= n
i
i XX
b
1
2
2
1
2
)(
)( σσ (9-13)
- 160 -
第九章 一元线性回归
因为 ,且Y∑
=
=
n
i
iiYCb
1
1 i相互独立,其中 ∑
=
−
−= n
i
i
i
i
XX
XXC
1
2)(
∑∑∑
=
== −
=== n
i
i
n
i
ii
n
i
ii
XX
YCYCb
1
2
2
1
22
1
2
1
2
)(
)()()( σσσσ
所以,b1是服从 )
)(
,(
1
2
2
1
∑
=
−n
i
i XX
N σβ 的随机变量。
9.5.2 F 检验
在一元线性回归中,为了检验Y对于X线性关系的统计显著性,对β1进
行F检验
10 提出假设:H0:β1=0,H1:β1≠0。若原假设成立表明Y与X无显著
线性关系。
20 构造并计算统计量:
E
R
f
SSE
f
SSR
F = (9-14)
30 查F分布临界值表,得临界值 )2,1( −nFα
40 比较:若F< )2,1( −nFα 接受H0,认为Y与X不存在一元线性关系。
- 161 -
第九章 一元线性回归
表 9-1 方差分析表
变差
来源 平方和
自由
度 均方差 F 比
回归
2
1
)(∑
=
−∧ −=
n
i
i YYSSR 1
1
SSRMSR =
误差
2
1
)(∑
=
∧−=
n
i
ii YYSSE n-2
2−= n
SSEMSE
MSE
MSRF =
总和
2
1
)(∑
=
−−=
n
i
i YYSSTO
n-1 ---------- ---------
若F> )2,1( −nFα 拒绝H0,认为Y与X存在一元线性关系。
将各部分计算结果集中列于方差分析表内如表 9-1 所示
9.5.3 t 检验
1° 提出假设 H0:β1=0,H1:β1≠0。若原假设成立表明Y与X无显著
线性关系。
2° 构造并计算统计量:
)( 1
1
bs
bt = (9-15)
其中
∑ −−
=
2
1
)(
)(
XX
MSEbs
i
3°查 t 分布临界值表,得临界值 )2(2/ −ntα
4°比较:
若
t ,拒绝H)2(2/ −ntα 0
9.5.4 利用样本相关系数进行统计检验
- 162 -
第九章 一元线性回归
1°提出假设
H0: 0=ρ
H1: 0≠ρ ( ρ :为总体Y与X的线性相关系数)
2°计算简单相关系数γ
3°查相关系数临界值表,得临界值 )2( −nαγ
4°比较:
若 <γ αγ , 接受H0 ,认为Y与X不存在一元线性关系。
若 >γ αγ , 拒绝H0
9.6 模型适合性分析
在对一元线性回归模型的适合性进行分析时,由于误差项ε 是不可观测
或测量的, 需借助残差 的图像,来考察模型是否存在以下情况:
异方差性和
iii YYe
∧−=
自相关性。
9.6.1 误差项的异方差性检验
若 iε 不具有常数方差,称模型存在异方差性。此时,残差如图 9-6 所示,
数据点呈现发散或收敛趋势。 在此种情况下,最小二乘法失效,因此需按照
一定方法对数据进行变换,在计量经济学课程中,对此有详细讲述。
- 163 -
第九章 一元线性回归
图 9-6 误差项具有异方差性的残差图
2、误差项的自相关性检验
如果观测值是来自一个时间序列的样本,则很可能出现误差项 iε 是不
独立的,将残差et与时间t作残差图,将呈现出有规则的变化趋势。
图 9-7 误差项具有负自相关性的残差图
- 164 -
第九章 一元线性回归
图 9-8 误差项具有正自相关性的残差图
我们称模型存在自相关(Autocorrelation)现象,也需按一定方法对数
据进行修正,这在计量经济学课程中也有详细论述。
9.7 E(Y)的区间估计
因为误差项 iε 的方差(或 的方差) 通常是未知的,因此, 的
方差 也是未知的。由于 MSE 是 的无偏估计量,故可以用 MSE 代
替 ,从而得到 的估计方差,记为 。
iY
2σ 0ˆY
)ˆ( 0
2 Yσ 2σ
2σ 0ˆY )ˆ( 02 YS
]
)(
)(1[)ˆ(
1
2
2
0
0
2
∑
=
−
−+= n
i
i XX
XX
n
MSEYS (9-16)
可以证明,对于一元线性模型,以下随机变量
)(
)(ˆ
0
00
YS
YEYt −= (9-17)
服从自由度为n-2 的t分布。因此可以得到,在置信度为 1-α时,E(Y0)
的置信区间为:
- 165 -
第九章 一元线性回归
)ˆ()2(ˆ)()ˆ()2(ˆ 02/0002/0 YSntYYEYSntY −+≤≤−− αα (9-18)
其中: ]
)(
)(1[)ˆ(
1
2
2
0
0 ∑
=
−
−+= n
i
i XX
XX
n
MSEYS
9.8 因变量 Y 的预测
设: (9-19) 000 YˆYd −=
因为 iε (i=1,2,…,n)是相互独立的,故 与 也是相互独立的,所
以有:
0Y 0ˆY
)ˆ()ˆ()()ˆ()( 0
22
0
2
0
2
00
2
0
2 YYYYYd σσσσσσ +=+=−= (9-20)
)ˆ( 0
2 Yσ 中也含有 ,而 未知,故用它的无偏估计量 MSE 代替,于
是得到 的无偏估计量,记为 。
2σ 2σ
)( 0
2 dσ )( 02 dS
]
)(
)(11[
)ˆ()(
1
2
2
0
0
2
0
2
∑ −
−++=
+=
=
n
i
i XX
XX
n
MSE
YSMSEdS
(9-21)
可以证明,随机变量
∑ −
−++
−=
=
n
i
i XX
XX
n
YYt
1
2
2
0
00
)(
)(11
ˆ
σ
(9-22)
服从自由度为n-2 的t分布。在给定置信度 1-α情况下,因变量单个值Y0
的置信区间为:
)()2(ˆ)()2(ˆ 02/0002/0 dSntYYdSntY −+≤≤−− αα (9-23)
- 166 -
第九章 一元线性回归
习 题
1.有 10 个同类企业的生产性固定资产价值和工业总产值资料如下:
企业编号 生产性固定资产价值
(万元)
工业总产值(万元)
1
2
3
4
5
6
7
8
9
10
318
910
200
409
415
502
314
1210
1022
1225
524
1019
638
815
913
928
605
1516
1219
1624
合计 6525 9801
a.说明两变量之间的相关方向;
b.建立直线回归方程;
c.计算估计标准差;
d.估计生产性固定资产(自变量)为 1100 万元时总产值(因变量)的可能
值。
2.下表中的数据是主修信息系统专业并获得企业管理学士学位的学生,毕业
后的月薪(用 y 表示)和他在校学习时的总评分(用 x 表示)。由这些数据
估计的回归方程是 。 xy 1.5815.1290ˆ +=
总评分 月薪/元 总评分 月薪/元
2.6 2800 3.2 3000
3.4 3100 3.5 3400
3.6 3500 2.9 3100
a.计算 SST,SSR 和 SSE 。
b.计算样本确定系数r2。请对拟合优度做出评述。
c.样本相关系数的数值是多少?
3.根据上一练习
a.t 检验是否标明在总评分和月薪之间存在一个显著的关系?你的结论是
什么?取α=0.05。
- 167 -
第九章 一元线性回归
b.利用 F 检验,检验变量间的显著关系。你的结论是什么?取α=0.05。
c.做出 ANOVA 表。
4.若 x 表示公寓住宅的年租金(千元),y 表示该公寓住宅的销售价格(千
元),一家房地产公司的营业部门对 x 和 y 之间的关系进行回归分析。采集
了近期出售的一些公寓住宅建筑的数据,经过计算机处理得到的输出如下。
回归方程是 xy 21.70.20ˆ +=
预测量 系数 标准差 t 值
常数 20.000 3.2213 6.21
x 7.210 1.3626 5.29
方差分析
来源 自由度 平方和
回归 1 41587.3
误差 7
总计 8 51984.1
a.样本中有多少公寓住宅建筑?
b.写出估计的回归方程。
c.s(b1)的值是多少?
5.某公司采集了市场上办公用房的空闲率和租金率的数据。对于 18 个选取
的销售地区,下面是这些地区的中心商业区的综合空闲率(%)和平均租金
率(元/平米)的数据。
地区编号 综合空闲(%) 平均租金率(元/平方米)
1 21.9 18.54
2 6.0 33.70
3 22.8 19.67
4 18.1 21.01
5 12.7 35.09
6 14.5 19.41
7 20.0 25.28
8 19.2 17.02
9 16.0 24.04
10 6.6 31.42
11 15.9 18.74
12 9.2 26.76
13 19.7 27.72
14 20.0 18.20
15 8.3 25.00
- 168 -
第九章 一元线性回归
16 17.1 29.78
17 10.8 37.03
18 11.1 28.64
a.用横轴表示空闲率,对这些数据画出散点图。
b.这两个变量之间能显示出什么关系吗?
c.求出在办公用房的综合空闲率已知时,能用来预测平均租金率的估计的回
归方程。
d.在 0.05 显著性水平下检验关系的显著性。
e.估计的回归方程对数据的拟合好吗?请作出解释。
f.在一个综合空闲率是 25%的中心商业区,预测该市场的期望租金率。
g.若有某市的中心商业区,综合空闲率是 11.3%,预测该市中心商业区的期
望租金率。
- 169 -
9.3 总平方和分解
9.5 一元线性回归显著性检验
9.6 模型适合性分析