首页 3 多元线性回归

3 多元线性回归

举报
开通vip

3 多元线性回归null第三章 多元线性回归第三章 多元线性回归主要内容主要内容 模型的建立与假设 模型的参数估计 模型的统计检验 非线性关系的处理 模型的预测 虚拟变量 实例3.1 模型的建立与假设3.1 模型的建立与假设在实际经济问题中,一个经济变量往往受到多个因素的影响,仅用双变量模型是无法解决的,需要引入多元线性回归模型。 多元线性回归模型表现为线性回归模型中的解释变量有多个,其一般形式为:总体回归函数与样本回归函数总体回归函数与样本回归函数总体回归函数的形式为: 样本回归函数的形式为:随机表达式:...

3 多元线性回归
null第三章 多元线性回归第三章 多元线性回归主要 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 主要内容 模型的建立与假设 模型的参数估计 模型的统计检验 非线性关系的处理 模型的预测 虚拟变量 实例3.1 模型的建立与假设3.1 模型的建立与假设在实际经济问题中,一个经济变量往往受到多个因素的影响,仅用双变量模型是无法解决的,需要引入多元线性回归模型。 多元线性回归模型 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 现为线性回归模型中的解释变量有多个,其一般形式为:总体回归函数与样本回归函数总体回归函数与样本回归函数总体回归函数的形式为: 样本回归函数的形式为:随机表达式:非随机表达式:随机表达式:null设有n组观测值 则每组样本都满足:这样n组样本数据就组成一个线性方程组:null或者写成矩阵的形式:回归参数的含义回归参数的含义 也被称为偏回归系数(partial regression coefficients),表示在其他解释变量保持不变的情况下, 每变化 1 个单位时,Y的均值E(Y)的变化。 或者说 给出了 的单位变化对 Y 均值的“直接”或“净”(不含其他变量)的影响。 模型的假定E(ui)=0, i=1,2, …,n 相应的矩阵表达式为:模型的假定假定1:随机误差项ui的数学期望(均值)为0,即null假定2:同方差性。Var(ui)= E(ui-E(ui))2 = E(ui2) =  2 , i=1,2, ……,n假定3:无自相关性。Cov(ui, uj)= E(uiuj)=0 , i≠j,i,j=1,2, ……,nnull假设2 和假设3 的矩阵表达形式为: Cov (u) =  2I (其中: I为n阶单位矩阵)null假设4:解释变量 是确定变量,不是随机变量,与随机误差项不相关,即 Cov(Xj i, ui)=0,i=1,2, …,n,j=1,2, …,k 表现为矩阵形式为:E(X u) = Onull假设5:解释变量 之间不存在严格的线性关系,即解释变量的样本观测值矩阵是满秩的,应满足关系式:rank(X)=k+1 0,所以修正后的拟合优度不大于R ² 从而有:又 1-R²0,即:null赤池信息准则和施瓦茨准则赤池信息准则和施瓦茨准则 为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有:赤池信息准则(Akaike information criterion, AIC) 施瓦茨准则(Schwarz criterion,SC) 这两准则均 要求 对教师党员的评价套管和固井爆破片与爆破装置仓库管理基本要求三甲医院都需要复审吗 仅当所增加的解释变量能够减少AIC值或SC值时才在原模型中增加该解释变量。 二、方程的显著性检验(F检验) 二、方程的显著性检验(F检验) 方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。 即检验模型 Yi = 0 + 1X1i + 2X2i +  + kXki + ui , i =1,2, ,n 中的参数 j 是否显著不为0。 可提出如下原假设与备择假设: H0: 1 = 2 =  = k = 0 H1: j 不全为0null F 检验的思想来自于总离差平方和的分解式: TSS = ESS + RSS 如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。因此,可通过该比值的大小对总体线性关系进行推断。null 根据数理统计学中的知识,在原假设 H0 成立的条件下,统计量 服从自由度为( k , n-k-1)的F分布。 给定显著性水平 ,可得到临界值F( k ,n-k-1),由样本求出统计量F的数值,通过F  F( k , n-k-1)或F ≤F ( k, n-k-1 )来拒绝或接受原假设H0 ,以判定原方程总体上的线性关系是否显著成立。 拟合优度检验与方程显著性检验的关系拟合优度检验与方程显著性检验的关系 拟合优度检验与方程显著性检验是从不同原理出发的两类检验。 区别: 前者是从已经得到估计的模型出发,检验它对样本观测值的拟合程度,不考虑统计量的概率分布; 后者是从样本观测值出发,检验模型总体线性关系的显著性。 联系:模型对样本观测值的拟合程度高,模型总体线性关系的显著性就强。拟合优度与F值的重要关系式(1)拟合优度与F值的重要关系式(1)由与拟合优度与F值的重要关系式(2)拟合优度与F值的重要关系式(2)由可推出:三、变量的显著性检验(t检验)三、变量的显著性检验(t检验)方程的总体线性关系显著  每个解释变量对被解释变量的影响都是显著的。 因此,必须对每个解释变量进行显著性检验,以决定其是否可以作为解释变量被保留在模型中。 这一检验是由对变量的t检验完成的。nullt 统计量 由于 ,以 Aii 表示矩阵 主对角线上的第 i 个元素,于是参数估计量的方差为: 其中 2为随机误差项的方差,在实际计算时,用它的估计量代替: nullt 检验 设计原假设与备择假设: H1:j 0 给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量 t 的数值,通过 |t|t/2(n-k-1) 或 |t|≤t/2(n-k-1) 来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。 H0:j =0 (j =1,2…,k) null注意:一元线性回归中,t检验与F 检验一致 一方面,t 检验与F检验都是对相同的原假设 H0:1 = 0进行检验; 另一方面,两个统计量之间有如下关系: 参数的置信区间 参数的置信区间 这意味着,如果给定置信度(1-),从t分布表中查得自由度为(n - k-1)的临界值,那么 t 值处在 (-t/2, t/2)的概率是(1- )。null在实际经济活动中,经济变量的关系是复杂的,直接表现为线性关系的情况并不多见。 如著名的恩格尔曲线(Engle curves)表现为幂函数曲线形式、宏观经济学中的菲利普斯曲线( Phillips curves ) 表现为双曲线形式等。 但是,大部分非线性关系又可以通过一些简单的数学处理,使之化为数学上的线性关系,从而可以运用线性回归模型的理论方法。3.4 非线性关系的处理多项式函数模型多项式函数模型 形如 的模型为多项式函数模型。原模型可以转化为线性形式:null例如:描述税收与税率关系的拉弗曲线: 抛物线 s = a + b r + c r2 c < 0 s:税收; r:税率设X1 = r,X2 = r 2, 则原方程变换为 s = a + b X1 + c X2 c < 0 又如:企业的总成本曲线,总成本可用产量的三次多项式近似表示:双曲线函数模型双曲线函数模型设变量X 与Y 之间具有双曲线函数形式实例实例平均固定成本曲线 Y:平均固定成本 X:产量菲利普斯曲线 Y:货币工资变化率 X:失业率对数(半对数)模型 对数(半对数)模型 对数模型(双对数模型) 半对数模型 线性-对数形式 对数-线性形式指数函数模型指数函数模型指数函数模型的一般形式为:两边取对数,原模型可以转化为: null幂函数模型函数模型的一般形式为:两边取对数,得:null复杂函数模型两边取对数后,得到: 其中:A-效益系数,是技术进步水平的反映;  -替代参数;  -分配参数;m-规模报酬参数。例如,两要素不变替代弹性CES生产函数null 设式中 ln[K- + (1- )L-] =f ( ),在 =0 处作泰勒级数展开,代入取对数的函数后可得到:同样可以转化为线性模型的形式。非线性最小二乘法(NLS) 该方法的原则仍然是使残差平方和最小。计量经济软件包通常提供这类方法,这里给出有关非线性回归方法的大致步骤如下:1.首先给出各参数的初始估计值(合理猜测值); 2.用这些参数值和X观测值数据计算Y的各期预测值; 3.计算各期残差,然后计算残差平方和∑e2; 4.对一个或多个参数的估计值作微小变动; 5.计算新的Y预测值和残差平方和∑e2; 6.若新的∑e2小于老的∑e2,说明新参数估计值优于老估 计值,则以它们作为新起点; 7.重复步骤4,5,6,直至无法减小∑e2为止; 8.最后的参数估计值即为最小二乘估计值。非线性最小二乘法(NLS)NLS估计量的性质NLS估计量的性质非线性最小二乘估计量不是正态分布的,不是无偏的,而且没有最小方差。 非线性回归中的回归系数的推断通常是以大样本理论为基础。 变量的显著性检验(t检验)和回归方程整体的显著性检验(F检验)失效。确定非线性模型形式的方法确定非线性模型形式的方法根据散点图来确定类型。确定类型一般是把样本观测值画成散点图,由散点图的形状来大致确定模型的类型。 根据一定的经济知识背景。如商品的销售量与广告费用之间的关系,一般用S型曲线来描述,这是由于广告费用只有在一定范围内才会对销售量有明显的影响。 有时对一个问题需要用不同的模型来拟合,以找到效果最好的一个。比较时,首先要从经济学角度考虑,其次从统计分析的角度分析。3.5 模型的预测 对于模型 给定样本以外的解释变量的观测值 X0= (1, X10, X20, …, Xk0 ),可以得到被解释变量的预测值: 它可以是总体均值 E(Y0) 或个值 Y0 的预测。 但严格地说,这只是被解释变量的预测值的估计值,而不是预测值。为了进行科学预测,还需求出预测值的置信区间,包括 E(Y0) 和 Y0 的置信区间。 3.5 模型的预测nullE(Y0)的置信区间null在给定了置信度(1-)之后,E(Y0)的(1-)置信区间为nullY0的预测区间= 0预测误差为:容易证明: nullnull在给定了置信度(1-)之后,Y0的(1-)置信区间为null在实际建模过程中,被解释变量不但受定量变量的影响,同时还受定性变量影响,例如需要考虑性别、地区、不同历史时期、季节差异等因素的影响,这些因素也应该包括在模型中。 许多经济变量是可以定量度量的, 如:商品需求量、价格、收入、产量等。但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。 为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。 3.6 虚拟变量回归模型 定量化表示定性信息是通过引入“虚拟变量”来完成的,根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables)。 定量化表示定性信息是通过引入“虚拟变量”来完成的,根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables)。一般地,在虚拟变量的设置中: 基础类型,肯定类型取值为 1; 比较类型,否定类型取值为 0。 如:为比较性别差异,可以设男性为1,女性为0,变量名可以设为male。null 一个回归模型的解释变量都是虚拟或定性变量,这种模型被称为方差分析(ANOVA)模型。 一个回归模型同时包含定量和定性(虚拟变量)的解释变量,这种模型被称为协方差分析(ANCOVA)模型。虚拟变量的使用——截距项变动虚拟变量的使用——截距项变动 例1:一个以性别为虚拟变量考察企业职工薪金的模型:其中:Yi 为企业职工的薪金,Xi 为工龄, Di = 1,若是男性,Di = 0,若是女性。企业女职工的平均薪金为: 企业男职工的平均薪金为:几何意义几何意义假定 2 > 0,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差 2 。 可以通过传统的回归检验,对 2 的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。例2:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。例2:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。 教育水平考虑三个层次:高中以下、高中、大学及其以上。 这时需要引入两个虚拟变量:模型可设定如下: 在E(ui) = 0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数: 在E(ui) = 0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:高中以下:高中:大学及其以上:null 假定3 > 2,其几何意义: 还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。 还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。 比如在例1中的职工薪金模型中,再引入代表学历的虚拟变量D2 :本科及以上学历 本科以下学历 职工薪金的回归模型可设计为:null则不同性别、不同学历职工的平均薪金分别为:虚拟变量的使用——斜率项变动虚拟变量的使用——斜率项变动 思考:如果出现了这样的图形,我们该如何使用虚拟变量解决模型的问题?null 例:根据消费理论,消费水平 C 主要取决于收入水平 Y ,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。消费模型可建立如下:null模型中虚拟变量 D 以与 X 相乘的方式引入了模型中,从而可用来考察消费倾向的变化。 假定E(ui) = 0,上述模型所表示的函数可化为:截距项和斜率项都变动截距项和斜率项都变动 比如消费函数的例子中模型按照上面的形式构造,则有: 如果虚拟变量代表的因素对模型的截距项和斜率项都产生影响,则一般设定模型的形式如下:null例:考察1990年前后中国居民总储蓄—收入关系是否发生变化。 以 Y 为储蓄,X 为收入,可令: 以 Y 为储蓄,X 为收入,可令:1990年前: Yi = 1+ 2Xi + u1i i =1,2…,n1 1990年后: Yi = 1 + 2Xi + u2i i =1,2…,n2 (2) 1  1 ,但2 = 2 ,即两个回归的差异仅在其截距,称为平行回归(Parallel Regressions); (3) 1 = 1 ,但2  2 ,即两个回归的差异仅在其斜率,称为汇合回归(Concurrent Regressions); (4) 1  1,且2  2 ,即两个回归完全不同,称为相异回归(Dissimilar Regressions)。(1) 1 = 1 ,且2 = 2 ,即两个回归相同,称为重合回归(Coincident Regressions); 在统计检验中,如果 3 = 0 的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。 在统计检验中,如果 3 = 0 的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。将 n1与n2次观察值合并,并估计以下回归: 于是有:可分别表示1990年后期与前期的储蓄函数。Di为引入的虚拟变量:null具体的回归结果为: (-6.11) (22.89) (4.33) (-2.55) 由 2与 3的 t 检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的,储蓄函数分别为: = 0.9836null 许多变量展示出季节性的变异(如商品零售额、电和天然气的消费等),我们在建立模型时应考虑这一点,这有两种方法: (1) 在估计前对数据进行季节调整; (2) 采用虚拟变量将季节性差异反映在模型中。 例:设Y =购买汽车的实际支出额 X =实际总消费支出 使用美国1973(1)-1980(2)的季度数据(按1975年价格计算),得回归结果如下: 季节虚拟变量的使用null 这一结果很不理想,低R2值,低t值,X的符号也不对。考虑到可能是季节性变异的问题,我们建立下面的模型: 其中,Q1={ Q2={ Q3={ 注意:我们仅用了3个虚拟变量就可表示4个季度的情况。 各季度的截距分别为: 1季度: 0 +  1 2季度: 0 + 2 3季度: 0 +  3 4季度: 0 null估计结果如下: 所得到的实际总支出的参数估计值(0.1044)是一个不受季节变动影响的估计值。 虚拟变量的设置原则虚拟变量的设置原则 每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果定性变量有m个类别,只能在模型中引入m-1个虚拟变量。如果引入m个虚拟变量则会违背假设5,造成OLS无法估计,落入“虚拟变量陷阱”。 一般不指定其虚拟变量的那一组被称为基组,所有其他的组都与基准组进行比较。 3.7 实例3.7 实例我国居民人均消费支出与人均GDP 科布-道格拉斯生产函数 工资与工作经历null我国居民人均消费支出与人均GDP资料来源:根据《中国统计年鉴》(2001)整理null双变量模型的回归结果null加入上一年人均消费作为解释变量的回归结果比较两个模型的结果比较两个模型的结果 修正的拟合优度 AIC和SC F检验 t检验 模型的应用——预测 2001年我国人均GDP为4033.1元,于是人均居民消费的预测值为: Ŷ2001=120.7+0.2213×4033.1+0.4515×1690.8=1776.8(元) 实测值(90年价)=1782.2元,相对误差:-0.31% 预测的置信区间 :模型的应用——预测null科布-道格拉斯生产函数Cobb-Dauglas生产函数简称为C-D函数,其一般形式为: Y代表产出量;K为投入的资本;L是投入的劳动 在对C-D生产函数进行回归时,一般将方程两边取对数: ln Y = ln A +  ln K +  ln L 我们使用古扎拉蒂一书中提供的墨西哥1955-1974年的数据。 科布-道格拉斯生产函数回归的结果为:回归的结果为:思考:各参数的经济含义。 0.3397表示产出对劳动投入的弹性,即在资本投入保持不变的条件下,劳动投入每增加一个百分点,平均产出将增加0.34个百分点。资本前的系数含义类似。规模报酬规模报酬将两个弹性系数相加,可以得到一个重要的经济参数——规模报酬参数(returns to scale parameter) 如果两个弹性系数之和为1,则称规模报酬不变(constants return to scale) 如果弹性系数之和大于1,则称规模报酬递增(increasing returns to scale) 如果弹性系数之和小于1,则称规模报酬递减(dncreasing returns to scale)规模报酬不变生产函数的处理:规模报酬不变生产函数的处理: 这样,就转化为以人均数据表示的双变量生产函数,因变量为劳动者平均产出的对数,自变量为劳动者平均资本水平的对数。我们可以使用双变量线性回归模型来估计生产函数。工资与工作经历在应用经济学中,为了描述递减或递增的边际效应,常常会用到二次函数,形如: 由于二次项的引入, 不再度量Y相对于X的变化,如: 以伍德里奇一书中的工资数据为例。 工资与工作经历结果结果 这个结果意味着exper对wage具有递减的影响,工作经历的第一年约值每小时30美分,工作经历的第二年就没有那么有价值了。
本文档为【3 多元线性回归】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_139098
暂无简介~
格式:ppt
大小:1MB
软件:PowerPoint
页数:0
分类:其他高等教育
上传时间:2013-06-02
浏览量:34