第七章 多重共线性
7.1 多重共线性的两种表现形式
那么就说原模型中存在多重共线性。
则表明原模型中存在完全多重共线性
则表明原模型中存在不完全多重共线性
1. 完全多重共线性
假设为了研究某种商品的需求函数
收集到一组样本数据,观察两个自变量,它们之间实际上存在下面函数关系
也就是说两个自变量之间存在明确的线性关系,即所谓的完全共线性
因而原来的模型变为
这个模型实际上变成了一个一元线性回归模型,我们可以估计出截距系数和斜率系数
在上面的方程组中,有三个未知数,没有办法求出原回归模型中三个参数的唯一解,这就是完全多重共线性的后果
2. 不完全多重共线性
假设现在收集到另外一组样本数据,在这个样本中,两个自变量之间没有明确的函数关系,但是它们之间的相关系数 , 说明两个变量之间还是存在线性相关关系
在这种不完全多重共线性情况下,可以对模型使用最小二乘估计,得到下面的结果
(-3.4444)
(-0.7911)
参数是可以估计出来,但是这个模型存在下面两个问题:
1.收入参数的斜率系数符号为负,在现实生活中我们知道随着人们收入的增加,对一般商品的需求应该也是增加的,参数符号应该为正;
2.收入参数没有通过t检验
7.2 多重共线性产生的原因
1、经济变量之间的内在联系(对横截面数据)
工业生产函数中,
劳动力投入量和资金投入量
产品需求函数中,
商品本身价格和替代品价格
消费函数中,
人们的收入和财产
这些变量之间实际上相互联系,经常会表现出一定的相关关系
2、经济变量共同变化的趋势(对时间序列数据)
这些经济变量本身之间可能没有非常密切的联系,但是它们在相同的样本期间内,有着相同变化的趋势,比如在经济繁荣的时期,人们的收入、投资、就业等经济变量都会相同的增长趋势
3、模型中引入了滞后变量
比如在消费函数中引入了上一期或者前几期收入,各期收入之间有可能是高度相关的
7.3 多重共线性的后果
多重共线性对多元线性模型的影响,可以从完全多重共线性和不完全多重共线性两个方面进行分析。
(1)参数无法估计(参数无唯一解)
前面我们已经通过一个例子说明在完全多线性的情况下,没有办法得到参数的唯一解,实际上我们也可以从二元线性回归模型的参数估计表达式中得出同样得结论
1.完全多重共线性对模型的影响
以一个二元线性回归模型的偏斜率系数为例
在完全共线性情况下,若
(2)参数估计量的方差无穷大
在多元线性回归模型一章中也给出了参数估计量的方差
两个自变量完全共线性时,
2.不完全多重共线性对模型的影响
(1)参数估计值的方差增大
随着自变量之间的相关性增强,估计参数的方差也随之增大,从刚推导出的方差表达式中也可以看出
为此特别定义方差膨胀因子
0 1
0.5 2
0.8 5
0.9 10
0.95 20
0.96 25
0.97 33
0.98 50
0.99 100
0.999 1000
(2)t检验的可靠性降低
模型中存在多重共线性时,估计参数的方差增大,因此其标准差也会增大,从而使得t检验值减小,一个或多个自变量可能没有办法通过参数的显著性检验,其检验的可靠性也会降低
(3)难以区分每个自变量对因变量的单独影响
正是由于自变量之间的共线性,它们相互影响,因此没有办法分离出每个解释变量对因变量的影响
(4)参数估计值及其标准差对数据的微小变化都非常敏感
7.4 多重共线性的检验
多重共线性检验一般要实现下面几个任务
1.检验多重共线性是否存在
2.判断多重共线性问题的严重程度
3.判断多重共线性的具体形式
多重共线性产生的原因比较复杂,在实际的检验过程中没有固定的、确定的方法,只有一些探索性的手段
1.利用相关系数检验
通过计算自变量之间的两两的相关系数,可以大体判断出模型中是否存在多重共线性
以 新教材P115模型为例
经过计算,四个自变量两两的相关系数如下
从上面的相关系数矩阵中可以看出这四个自变量两两之间高度相关,因此原模型中存在多重共线性问题
2.综合分析普通最小二乘估计的结果
如果最小二乘估计结果的拟合系数和方程总体显著统计量都比较大,而有的自变量的偏斜率系数t检验值较小,无法通过显著性检验,此时模型中可能会存在多重共线性问题
仍以 新教材P115或老教材P146页的数据为例
3.通过辅助回归方程进行检验
这种检验方法通过建立每个自变量和其它自变量之间的辅助线性回归方程来检验模型中是否存在多重共线性,也就是建立形如
如果其中某些自变量通过参数显著性检验,就表明模型中存在多重共线性。
①不仅能检验是否模型中是否存在多重共线性,而且可以得到多重共线性的具体形式;
这种检验方法具有比较显著的作用:
②结合相关和偏相关分析,可以进一步断定模型中哪些自变量引起多重共线性
例7.3对教材P146页的模型进行辅助方程检验
(-3.0501) (3.5450) (-0.8013) (2.3868)
(0.8944) (3.5450) (1.0732) (-1.3268)
(0.9844) (-0.8013) (1.0731) (3.3131)
(3.9530) (2.3868) (-1.3268) (3.3131
4.通过计算方差膨胀因子和容许度来判断
( 1) 计算每个自变量对应的方差膨胀因子VIF来判断模型中是否存在多重共线性,一般认为如果方差膨胀因子VIF>10,那么模型中的自变量之间是高度共线性的。
(2)容许度(tolerance)是方差膨胀因子的倒数,某个自变量的容许度就是其他自变量所不能解释的这个自变量的变动程度。某个自变量的容许度数值越大,其他自变量对该自变量的解释程度越小,那么这个自变量和其他自变量的共线性程度越小;反之则表明这个自变量和其他自变量的共线性程度越大。
通过计算可以看出每一个辅助回归方程中的方差膨胀因子都大于10,容许度都比较小,因此原模型中存在比较严重的共线性问题
例7.4 利用例7.3中的辅助回归方差来计算VIF和Tol
辅助回归方程(1) 0.9922 127.6210 0.0078
辅助回归方程(2) 0.9820 55.4990 0.0180
辅助回归方程(3) 0.9863 73.0400 0.0137
辅助回归方程(4) 0.9921 126.6120 0.0079
方差膨胀因子的有关说明
使用方差膨胀因子来度量模型中的共线性仅仅是一种经验方法,它的使用也受到一些批评。一个较高的方差膨胀因子既不是导致参数估计值较大的标准误差的必要条件也不是充分条件,也就是说一个较高的VIF度量出来的较高的多重共线性不一定会导致参数估计值较高的标准误差。
对比模型中每个自变量的方差膨胀因子和参数显著性检验的结果,可以发现第二个自变量的方差膨胀因子是最小的,但偏偏是它没有通过参数的显著性检验,第一个自变量和第四个自变量的方差膨胀因子都是非常大的,但是它们反而都通过了参数的显著性检验
比较例7.3中的VIF和t统计量
X 127.6210 3.7076 0.0139
K 55.4990 0.2951 0.7798
P1 73.0400 -2.2049 0.0786
p0 126.6120 2.2391
0.0753
课堂练习题
某商品的需求函数为
其中Y为需求量,X1为商品价格,X2为收入,现已知两个自变量之间的相关系数为-0.96,需求函数的回归结果为:
(1)计算该模型的方差膨胀因子
(2)结合方差膨胀因子和相关的检验统计量,判断该模型是否存在多重共线性
7.5 多重共线性的解决方法
在处理多重共线性问题之前,必须明确两点:
⒈如果建立模型的目的仅仅是为了预测,只要模型的拟合系数较大,而且自变量之间的相关关系在短时间内不会变化,那么多重共线性的影响其实并不太重要;
⒉多重共线性产生最主要的原因是多元线性回归模型中自变量之间的相关性,其根本解决方法是剔除回归模型中的若干自变量,但是这样一来又会带来其他的问题
①模型的经济意义不尽合理
如生产函数中,劳动力投入和资本投入之间经常高度相关,剔除其中任何一个都不太合适
②如果剔除的变量是比较重要的,那么将影响回归模型的估计,容易使得模型产生异方差和自相关的问题;
③如果自变量剔除不当,还会使得模型设定存在偏差,造成参数估计严重偏误
为了解决多重共线性的问题,我们应该慎重考虑,根据自变量的特点,分别采用直接剔除法和间接剔除法来对多重共线性进行补救
1.直接剔除次要或者可以替代的变量
如果模型中有些自变量可能是没有显著影响的,或者它们的影响可以用其他变量来代替,那么可以直接剔除
2.间接剔除重要的解释变量
(1)利用已知或者附加的信息
前面我们讲到,在柯布-道格拉斯生产函数中,劳动力投入L和资本投入K之间常常是高度相关的,如果我们事先知道劳动力投入和资本投入之间是规模报酬不变的,即α+β=1,则原来的生产函数可以改写为
对于模型中重要的解释变量,可以利用下面的方法将它们“间接剔除”:
(2)改变模型的形式
对原来的模型进行适当的改变有时也可以消除或者减少模型中自变量之间的相关程度:
1)改变模型的函数形式,将线性回归模型转为为对数模型或者多项式模型等;
2)改变自变量的形式,使用差分变量、相对数变量;
3)改变变量的统计指标,比如在生产函数中,劳动力投入使用职工工资指标,资本投入采用固定资产或者流动资产指标来进行分析。
比如我们在前面提到过的商品需求函数
(3)增加样本容量
多重共线性是一个样本现象,在研究同一个问题的另外一个样本中或许并不存在非常严重的多重共线性,因此增大样本容量也许能够减轻模型中大的共线性程度。
但是在在实际的工作中,社会经济的数据并不是通过实验方法来获得的,要得到新增的数据并不是轻而易举的事情,也许要花费很大的代价。
(4)综合使用横截面数据和时间序列数据
比如研究汽车的需求函数,假定收集到车辆出售数量、车辆平均价格和消费者收入的有关数据,并且设定
如果价格和收入之间有高度共线性的趋势,对上面的模型进行回归将会遇到多重共线性问题。为了解决这个问题
a)假设我们能够收集到横截面的数据,我们就能比较可靠地估计收入弹性,因为这些数据都产生在同一时间内,价格不至于发生很大变化
需求函数就可以写成
b)再利用时间序列数据,估计价格弹性
这种方法的问题:这种方法解释起来可能有一定的问题,它
假定收入弹性的横截面估计值和从纯粹的时间序列分析中得到的
估计值完全一致。
当横截面估计在不同截面之间没有多大变化时可以考虑使用
这种方法。
7.6多元回归模型中选择自变量的方法
1、向前选择法(Forward)
思路:向前选择法从一元线性回归模型开始,找出拟合系数最大的一元线性回归模型和自变量,然后再向模型中增加一个变量,找到拟合系数 或 F 值最大的二元线性回归模型;采用类似方法不停地向模型中增加自变量。当增加的自变量不能使残差平方和明显减少时,结束这一过程。
问题:这种方法不能反应引入新的自变量后模型的变化情况,某个自变量开始可能是显著的,但是引入其他自变量后也许会变得不显著了,但是没有机会将它剔除出去,只考虑引入变量,没有考虑剔除的方法是不全面的。
特点:使用这种方法,变量被增加到模型中,就不容许把它从模型中剔除。
2、向后排除法(Backward)
思路:这种方法和向前选择法相反,它从包含所有自变量的回归模型开始,然后利用准则从模型中剔除变量,使模型的拟合系数减小最小的自变量会被从模型中剔除出去;这样每次只剔除一个变量,直到剔除的自变量使得模型的拟合系数显著减小为止。
特点:使用这种方法,不容许把剔除的变量再增加到模型中。
3、逐步回归法(Stepwise)
思路:这种方法和向前选择法有些相似,但是在每增加一个变量时,会对模型中的所有自变量进行检验,判断是否需要删除某个自变量。如果增加一个新的自变量以后,先前引入的某个自变量对模型的贡献变得不显著了,那么这个自变量将会被剔除。
特点:这种方法综合了向前选择法和向后剔除法的特点,它不停地向模型中增加自变量并考虑剔除以前引入的自变量的可能性,直到移入的自变量不能使模型中的拟合系数显著增加为止。
使用这种方法,前面步骤中被剔除的自变量随后也有可能重新进入模型。
选择合适的自变量的检验统计量
在将一个或一个以上的自变量增加到模型中是否合适时,可以使用F统计量来确定。
它的检验依据是:在一个线性回归模型中,如果增加一个或多个自变量可以使得回归模型的残差平方和减小,那么这个或这几个自变量就可以放到模型中,反之就没有理由增加一个或多个自变量。
Forward法选择变量第一步
由于x对应的一元线性回归模型拟合系数最大,
forward方法第一步引入的自变量就是x
自变量
X 0.9956 0.7347
K 0.9670 5.4954
P1 0.9516 8.0650
p0 0.9776 3.7401
第二步
本文档为【计量经济学 第七章 多重共线性】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。