第二章 回归分析概要
第五节 多元线性回归分析
一 模型的建立与假定条件
在一元线性回归模型中,我们只讨论了包含一个解释变量的一元线性回归模型,也就是假定被解释变量只受一个因素的影响。但是在现实生活中,一个被解释变量往往受到多个因素的影响。例如,商品的消费需求,不但受商品本身的价格影响,还受到消费者的偏好、收入水平、替代品价格、互补品价格、对商品价格的预测以及消费者的数量等诸多因素的影响。在分析这些问题的时候,仅利用一元线性回归模型已经不能够反映各变量间的真实关系,因此,需要借助多元线性回归模型来进行量化分析。
1. 多元线性回归模型的基本概念
如果一个被解释变量(因变量)
有
个解释变量(自变量)
,
, 同时,
不仅是
的线性函数,而且是参数
和
(通常未知)的线性函数,随即误差项为
,那么多元线性回归模型可以表示为:
这里
为总体多元线性回归方程,简称总体回归方程。
其中,k表示解释变量个数,
称为截距项,
是总体回归系数。
表示在其他自变量保持不变的情况下,自变量
变动一个单位所引起的因变量Y平均变动的数量,因而也称之为偏回归系数。
当给定一个样本
时,上述模型可以表示为:
此时,
与
已知,
与
未知。
其相应的矩阵表达式为:
可以简化为:
--总体回归模型的简化形式。
2. 假定条件
与一元线性回归模型的基本假定相似,为保证得到最优估计量,多元线性回归模型应满足以下假定条件:
假定1 随机误差项
满足均值为零,其方差
相同且为有限值。
假定2 随机误差项之间相互独立,无自相关。
假定3 解释变量
,
之间线性无关,即解释变量的样本观测值矩阵式满秩矩阵,否则称解释变量之间存在多重共线性(与课本假定7合并)。
假定4 解释变量
,
是确定性变量,与误差项彼此之间相互独立。
假定5 解释变量是非随机变量,且当
,Q是一个有限值的非奇异矩阵。
假定6 随机误差项服从正态分布。
假定7 回归模型是正确
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
的。
二、最小二乘法
根据最小二乘法的原则,总体回归模型可以推导为样本回归模型,即:
其中,
是
的估计值列向量,
称为残差列向量。
因为,
,所以,
也是Y的线性组合。
关于多元线性回归模型中样本容量的问题:
(1)最小样本容量
在多元线性回归模型中,样本容量必须不少于模型中解释变量的数目(包括常数项),这就是最小样本容量,即:
。
(2)满足基本要求的样本容量
一般经验认为,当
或者至少
时,才能说满足模型估计的基本要求。
三、多元可决系数与调整后的多元可决系数
类似于一元线性回归模型的情形,我们对估计的回归方程关于样本观测值的拟合优度进行检验,而检验的统计量是可决系数。因是多元回归,样本可决系数
就称为多元可决系数。
对于多元线性回归模型的情形,一元线性回归模型的总离差平方和的分解公式依然成立,即:
TSS= ESS +RSS
其中,TSS的自由度为n-1,n表示样本容量,
ESS的自由度为k,k表示自变量的个数,
RSS的自由度为n-k-1。
我们在模型应用中发现,如果在模型中增加一个解释变量,
往往会增大。这是因为残差平方和往往随着解释变量个数的增加而减少,至少不会增加。这就给人一个错觉:要使模型拟合得好,只要增加解释变量就可以了。但是,现实情况往往是,由增加解释变量个数引起的
的增大与拟合好坏无关,因此,在多元线性回归模型之间比较拟合优度,
就不是一个合适的指标,必须加以调整。
在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是将残差平方和与总离差平方和分别处以各自的自由度,以剔除变量个数对拟合优度的影响。
定义调整的多元可决系数 如下:
当模型中增加一个自变量,如果RSS/(n-k-1)变小,因而使
增大,便可认为这个自变量对因变量有显著影响,应该放入模型中,否则,应予抛弃。
在样本容量一定的情况下,
具有如下性质:
(1) 若
(2)
可能出现负值。如
时,
。显然,负的拟合优度没有任何意义,在此情况下,取
在实际中,
或
越大,模型拟合得就越好,但拟合优度不是
评价
LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载
模型优劣的唯一标准。因此,我们不能仅根据
或
的大小来选择模型。
补充知识:赤池信息准则和施瓦茨信息准则
为了比较所含解释变量个数不同的多元线性回归模型的拟合优度,常用的标准还有赤池信息准则(Akaike Information Criterion,AIC)和施瓦茨信息准则(Schwarz Criterion,SC),其定义分别为:
这两个准则均要求仅当所增加的解释变量能够减少AIC值或SC值时才能在原模型中增加该解释变量。显然,与调整的可决系数相仿,如果增加的解释变量没有解释能力,则对残差平方和e,e的减小没有多大帮助,但增加了待估参数的个数,这时可能到时AIC或SC的值增加。
四、统计检验
1. F检验
为了从总体上检验模型中被解释变量与解释变量之间的线性关系是否显著成立,检验的原假设为:
(k表示方程中回归系数的个数,也可以称为自变量的个数)若成立,则模型中被解释变量与解释变量之间不存在显著的线性关系。
备择解释为:
不全为零。
若原假设成立,则检验统计量:
EMBED Equation.3
这是自由度为
的F分布,对于预先给定的显著水平a,可以从F分布表中查出相应的自由度。
设检验水平为a,则检验
规则
编码规则下载淘宝规则下载天猫规则下载麻将竞赛规则pdf麻将竞赛规则pdf
是:
若
,接受原假设;
若
,则接受备选假设。
F与
的关系:
,
由公式,可以看出,F与
成正比,
越大,F值也越大。即总体的F检验越显著(F值越大),
的值也越大,回归方程拟合得就越好,所以,F检验可以看作是对拟合优度的检验。
2.回归系数的显著性检验—t检验
对于多元线性回归模型,总体回归方程线性关系的显著性,并不意味着每个解释变量对被解释变量的影响都是显著的。因此,有必要通过检验把那些对被解释变量影响不显著的解释变量从模型中剔除,只保留对被解释变量影响显著的解释变量,以建立更为简单合理的多元线性回归模型。
如果一个解释变量
对被解释变量的影响不显著,则对应于该解释变量的回归系数
的值等于0。因此,我们只要检验一个解释变量
的回归系数
的值是否为0就可以了。
检验原假设:
;
备择假设:
判别标准,若
;若
。
_1330697404.unknown
_1362159277.unknown
_1362160117.unknown
_1362161034.unknown
_1362161807.unknown
_1362161921.unknown
_1362162432.unknown
_1362162470.unknown
_1362161866.unknown
_1362161788.unknown
_1362160323.unknown
_1362160437.unknown
_1362160134.unknown
_1362159495.unknown
_1362160057.unknown
_1362159343.unknown
_1330697571.unknown
_1330697758.unknown
_1330699411.unknown
_1330699563.unknown
_1330699573.unknown
_1330699567.unknown
_1330699426.unknown
_1330697871.unknown
_1330699101.unknown
_1330698519.unknown
_1330697775.unknown
_1330697709.unknown
_1330697744.unknown
_1330697604.unknown
_1330697539.unknown
_1330697557.unknown
_1330697431.unknown
_1330697520.unknown
_1330697413.unknown
_1330514019.unknown
_1330515376.unknown
_1330515683.unknown
_1330696938.unknown
_1330697010.unknown
_1330517185.unknown
_1330594922.unknown
_1330594950.unknown
_1330696898.unknown
_1330595028.unknown
_1330594941.unknown
_1330594196.unknown
_1330594895.unknown
_1330517219.unknown
_1330517066.unknown
_1330517151.unknown
_1330516566.unknown
_1330516794.unknown
_1330515818.unknown
_1330515521.unknown
_1330515631.unknown
_1330515506.unknown
_1330514723.unknown
_1330515052.unknown
_1330514549.unknown
_1330512753.unknown
_1330513103.unknown
_1330512646.unknown