首页 应用回归分析实验报告

应用回归分析实验报告

举报
开通vip

应用回归分析实验报告重 庆 交 通 大 学 学 生 实 验 报 告 实验课程名称    应用回归分析              开课实验室      数学实验室                  学      院 理学院  年级 专业班  学 生 姓 名  学  号       开 课 时 间 2013 至  2014  学年第 2 学期 评分细则 评分 报告表述的清晰程度和完整性(20分)   程序设计的正确性(40分)   实验结果的分析(30分)   实验方法的创新性(10分)   总成绩...

应用回归分析实验报告
重 庆 交 通 大 学 学 生 实 验 报 告 实验课程名称    应用回归 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析               开课 实验室 17025实验室iso17025实验室认可实验室检查项目微生物实验室标识重点实验室计划       数学实验室                  学      院 理学院  年级 专业班  学 生 姓 名  学  号       开 课 时 间 2013 至  2014  学年第 2 学期 评分细则 评分 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 述的清晰程度和完整性(20分)   程序设计的正确性(40分)   实验结果的分析(30分)   实验方法的创新性(10分)   总成绩   教师签名 邹昌文     2.15 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经过10周时间,收集了每周加班工作时间的数据和签发新保单数目,x为每周签发的新保单数目,y为每周加班工作时间(小时)。 表2.7 y 3.5 1 4 2 1 3 4.5 1.5 3 5 x 825 215 1070 550 480 920 1350 325 670 1215                       (1)画散点图; (2)x与y之间是否大致呈线性关系? (3)用最小二乘估计求出回归方程; (4)求回归 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 误差 ; (5)给出 、 的置信度为95%的区间估计; (6)计算x与y的决定系数; (7)对回归方程做方差分析; (8)做回归系数 显著性检验; (9)做相关系数的显著性检验; (10)对回归方程做残差图并作相应的分析; (11)该公司预计下一周签发新保单 张,需要的加班时间是多少? (12)给出 的置信水平为95%的精确预测区间和近视预测区间。 (13)给出 置信水平为95%的区间估计。 (1)将数据输入到SPSS中,画出散点图如下: (2)由下表可知x与y的相关系数高达0.949,大于0.8,所以x与y之间线性相关性显著。 相关性   y x Pearson 相关性 y 1.000 .949 x .949 1.000 Sig. (单侧) y . .000 x .000 . N y 10 10 x 10 10         (3)用SPSS进行最小二乘估计得到了如下系数表: 系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 相关性 共线性统计量 B 标准 误差 试用版 下限 上限 零阶 偏 部分 容差 VIF 1 (常量) .118 .355   .333 .748 -.701 .937           x .004 .000 .949 8.509 .000 .003 .005 .949 .949 .949 1.000 1.000 a. 因变量: y                             由上表可知 、 的参数估计值 、 分别为0.118和0.004,所以y对x的线性回归方程为 (4)由SPSS得到如下模型汇总表: 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 1 .949a .900 .888 .4800 a. 预测变量: (常量), x。           由模型汇总表可知回归标准误差 =0.4800 (5)由以下系数表可知 、 的置信度为95%的区间估计分别为: (-0.701,0.937)和(0.003,0.005)。 系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 相关性 共线性统计量 B 标准 误差 试用版 下限 上限 零阶 偏 部分 容差 VIF 1 (常量) .118 .355   .333 .748 -.701 .937           x .004 .000 .949 8.509 .000 .003 .005 .949 .949 .949 1.000 1.000 a. 因变量: y                             (6)做出模型汇总表: 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 1 .949a .900 .888 .4800 a. 预测变量: (常量), x。           由以上模型汇总表可知x与y的决定系数为 。 (7)对回归方程做方差分析; Anovab 模型 平方和 df 均方 F Sig. 1 回归 16.682 1 16.682 72.396 .000a 残差 1.843 8 .230     总计 18.525 9       a. 预测变量: (常量), x。 b. 因变量: y               由方差分析表可以知道, , 显著性 ,可知其回归方程高度显著。即可说明 对 的线性回归高度显著,这与相关系数的检验结果是一致的! (8)做回归系数 显著性检验; 得出系数表如下: 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) .118 .355   .333 .748 x .004 .000 .949 8.509 .000 a. 因变量: y               从系数表可以看出 的 ,即 ,所以 没有通过显著性检验,所以得出的回归系数 不可用。而 的 ,即 ,所以 通过了显著性检验。 (9)做相关系数的显著性检验; 相关性   y x Pearson 相关性 y 1.000 .949 x .949 1.000 Sig. (单侧) y . .000 x .000 . N y 10 10 x 10 10         所以,由以上相关系数表中看到,相关系数 ,单侧检验显著性 ,即 ,相关系数通过显著性检验。 (10)由EXCLE处理得到如下样本点x对应的残差e: x 825 215 1070 550 480 920 1350 325 670 1215 e 0.082 0.022 -0.398 -0.318 -1.038 -0.798 -1.018 0.082 0.202 0.022                       由以上残差图可以看出,所有残差都是在 附近随机变化,并在变化幅度不大的一条子带内。因此,回归模型满足所给出的基本假设。 (11)该公司预计下一周签发新保单 张,由已得的最小二乘估计回归方程 ,将 带入求得 ,所以需要加班4.118个小时。 (12)给出 的置信水平为95%的精确预测区间和近似预测区间。 由SPSS得出的精确预测区间和近似预测区间如下: (13)给出 置信水平为95%的区间估计。 因为 置信水平为 的置信区间为: 查(12)中的表,可知 置信水平为 的置信区间为为: 2.16 表2.8是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和学生的人均经费投入x(美元)。 表2.8 序号 y x 序号 y x 序号 y x 1 19583 3346 18 20816 3059 35 19538 2642 2 20263 3114 19 18095 2967 36 20460 3124 3 20325 3554 20 20939 3285 37 21419 2752 4 26800 4542 21 22644 3914 38 25106 3429 5 29470 4669 22 24624 4517 39 22482 3947 6 26610 4888 23 27186 4349 40 20969 2509 7 30678 5710 24 33990 5020 41 27224 5440 8 27170 5536 25 23382 3594 42 25892 4042 9 25853 4168 26 20627 2821 43 22644 3402 10 24500 3547 27 22795 3366 44 24640 2829 11 24274 3159 28 21570 2920 45 22341 2297 12 27140 3621 29 22080 2980 46 25610 2932 13 30168 3782 30 22250 3731 47 26015 3705 14 26525 4247 31 20940 2853 48 25788 4123 15 27360 3982 32 21800 2533 49 29132 3608 16 21690 3568 33 22934 2729 50 41480 8349 17 21974 3155 34 18443 2305 51 25845 3766                   (1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗? (2)建立y对x的线性回归; (3)用线性回归的Plots功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假设。 (1).由以上的51组数据用SPSS画出y对x的散点图如下: 由下面的相关性表可知y与x之间的相关系数为0.835,大于0.8,单侧检验显著性 ,即 ,因此y与x之间具有高度的线性相关性,故可以用直线回归描述两者之间的关系。 相关性   y x Pearson 相关性 y 1.000 .835 x .835 1.000 Sig. (单侧) y . .000 x .000 . N y 51 51 x 51 51         如下图所示: (2).由线性回归统计得到以下系数表: 系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 相关性 共线性统计量 B 标准 误差 试用版 下限 上限 零阶 偏 部分 容差 VIF 1 (常量) 12109.879 1196.948   10.117 .000 9704.521 14515.236           x 3.314 .312 .835 10.630 .000 2.688 3.941 .835 .835 .835 1.000 1.000 a. 因变量: y                             可知 、 的参数估计值 、 分别为12109.879和3.314,所以y对x的线性回归方程为 (3).用线性回归的Plots功能绘制出标准残差的直方图和正态概率图如下: 由以下的的残差统计量可知残差值服从正态分布,故通过正态性假设检验。 残差统计量a   极小值 极大值 均值 标准 偏差 N 预测值 19722.53 39779.89 24354.57 3490.019 51 残差 -3848.022 5523.929 .000 2298.333 51 标准 预测值 -1.327 4.420 .000 1.000 51 标准 残差 -1.657 2.379 .000 .990 51 a. 因变量: y             通过观察PP图来检验误差的正态性假设的PP图如下: 由PP图可以看出所有点分布在直线附近,显然可知通过正态性假设检验。 3.11 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民分商品指出x3(亿元)的关系。 (1)计算出y,x1,x2,x3的相关系数矩阵; (2)求y关于x1,x2,x3的三元线性回归方程; (3)对所求得的方程作拟合优度检验; (4)对回归方程做显著性检验; (5)对每一个回归系数做显著性检验; (6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再做回归方程的显著性检验和回归系数的显著性检验; (7)求出每一个回归系数的置信水平为95%的置信区间; (8)求标准化回归方程; (9)求档x01=75,x02=42,x03=3.1时的y0^,给定置信水平为95%,用SPSS软件计算精确置信区间,用手工计算近似预测区间; (10)结合回归方程对问题做一些基本分析。 表3.9 货运总量y(万吨) 工业总产值x1亿元 农业总产值x2亿元 居民非商品支出x3(亿元) 160 70 35 1.0 260 75 40 2.4 210 65 40 2.0 265 74 42 3.0 240 72 38 1.2 220 68 45 1.5 275 78 42 4.0 160 66 36 2.0 275 70 44 3.2 250 65 42 3.0         (1) 计算出y,x1,x2,x3的相关系数矩阵; 由得出相关性分析表如下: 相关性   货运总量y(万吨) 工业总产值x1亿元 农业总产值x2亿元 居民非商品之处x3(亿元) Pearson 相关性 货运总量y(万吨) 1.000 .556 .731 .724 工业总产值x1亿元 .556 1.000 .113 .398 农业总产值x2亿元 .731 .113 1.000 .547 居民非商品之处x3(亿元) .724 .398 .547 1.000 Sig. (单侧) 货运总量y(万吨) . .048 .008 .009 工业总产值x1亿元 .048 . .378 .127 农业总产值x2亿元 .008 .378 . .051 居民非商品之处x3(亿元) .009 .127 .051 . N 货运总量y(万吨) 10 10 10 10 工业总产值x1亿元 10 10 10 10 农业总产值x2亿元 10 10 10 10 居民非商品之处x3(亿元) 10 10 10 10             从上表可以看出,y,x1,x2,x3的相关系数矩阵为: (2)求y关于x1,x2,x3的三元线性回归方程; 得出系数表如下: 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -348.280 176.459   -1.974 .096 工业总产值x1亿元 3.754 1.933 .385 1.942 .100 农业总产值x2亿元 7.101 2.880 .535 2.465 .049 居民非商品之处x3(亿元) 12.447 10.569 .277 1.178 .284 a. 因变量: 货运总量y(万吨)               从上表可以看出,得出的y关于x1,x2,x3的三元线性回归方程为: (3)对所求得的方程作拟合优度检验; 由SPSS做拟合优度检验见下表: 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 1 .898a .806 .708 23.442 a. 预测变量: (常量), 居民非商品之处x3(亿元), 工业总产值x1亿元, 农业总产值x2亿元。           所以可知 ,即 。因此,我对模型给出肯定态度! (4)对回归方程做显著性检验; 由SPSS得出方差分析表如下: Anovab 模型 平方和 df 均方 F Sig. 1 回归 13655.370 3 4551.790 8.283 .015a 残差 3297.130 6 549.522     总计 16952.500 9       a. 预测变量: (常量), 居民非商品之处x3(亿元), 工业总产值x1亿元, 农业总产值x2亿元。 b. 因变量: 货运总量y(万吨)               从上表可以看出, ,显著性 。所以,回归方差通过显著性检验。 (5)对每一个回归系数做显著性检验; 由SPSS得出系数回归分析表: 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -348.280 176.459   -1.974 .096 工业总产值x1亿元 3.754 1.933 .385 1.942 .100 农业总产值x2亿元 7.101 2.880 .535 2.465 .049 居民非商品之处x3(亿元) 12.447 10.569 .277 1.178 .284 a. 因变量: 货运总量y(万吨)               可知 的显著性 ,即 ,因此 未通过显著性检验。 又 的显著性 ,即 ,因此 未通过显著性检验。 又 的显著性 ,即 ,因此 通过显著性检验。 最后, 的显著性 ,即 ,因此 未通过显著性检验。 (6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再做回归方程的显著性检验和回归系数的显著性检验; 由第(5)小题可知, 显著性最低;因此,我将 剔除后继续建立回归方程,由SPSS得出方差表和系数表如下: Anovab 模型 平方和 df 均方 F Sig. 1 回归 12893.199 2 6446.600 11.117 .007a 残差 4059.301 7 579.900     总计 16952.500 9       a. 预测变量: (常量), 农业总产值x2亿元, 工业总产值x1亿元。 b. 因变量: 货运总量y(万吨)               从上表可以看出, ,显著性 。所以,回归方差通过显著性检验。 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -459.624 153.058   -3.003 .020 工业总产值x1亿元 4.676 1.816 .479 2.575 .037 农业总产值x2亿元 8.971 2.468 .676 3.634 .008 a. 因变量: 货运总量y(万吨)               可知 的显著性 ,即 ,因此 通过显著性检验。 又 的显著性 ,即 ,因此 通过显著性检验。 又 的显著性 ,即 ,因此 通过显著性检验。 (7)求出每一个回归系数的置信水平为95%的置信区间; 由SPSS得出每个回归系数的置信水平为95%的置信区间如下: 系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 B 标准 误差 试用版 下限 上限 1 (常量) -459.624 153.058   -3.003 .020 -821.547 -97.700 工业总产值x1亿元 4.676 1.816 .479 2.575 .037 .381 8.970 农业总产值x2亿元 8.971 2.468 .676 3.634 .008 3.134 14.808 a. 因变量: 货运总量y(万吨)                   可知 的置信区间为: 的置信区间为: 的置信区间为: (8)求标准化回归方程; 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -459.624 153.058   -3.003 .020 工业总产值x1亿元 4.676 1.816 .479 2.575 .037 农业总产值x2亿元 8.971 2.468 .676 3.634 .008 a. 因变量: 货运总量y(万吨)               由上表可知,标准化回归方程为: (9)求当x01=75,x02=42,x03=3.1时的 ,给定置信水平为95%,用SPSS软件计算精确置信区间,用手工计算近似预测区间; 由SPSS得出的精确置信区间和近似预测区间如下表所示: 从上表可以看出,求当x01=75,x02=42,x03=3.1时的精确置信区间 ; 近似预测区间为: (10)结合回归方程对问题做一些基本分析。 因为回归方程为            所以可知,在保持 不变的情况下,当 变化一个单位(亿元)时, 增加4.676个单位(万吨);而在保持 不变的情况下,当 变化一个单位(亿元)时, 增加8.971个单位(万吨)。 3.12  用表3.10的数据,建立GDP对 和 的回归,对得到的二元回归方程 ,你能够合理的解释两个回归系数吗?如果现在不能给出合理的解释,不妨在学过第6章多重共线性后再来解释这个问题,在学过第7章领回归后再来改进这个问题。同时,根据下面的数据,分析得出一些您认为的有关的结论! 表3.10                      国内生产总值和第三次产业数据 年份 GDP 第一产业增加值x1 第二产业增加值x2 第三产业增加值x3 1990 18547.9 5017.0 7717.4 5813.5 1991 21617.8 5288.6 9102.2 7227.0 1992 26638.1 5800.0 11699.5 9138.6 1993 34634.4 6882.1 16428.5 11323.8 1994 46759.4 9457.2 22372.2 14930.0 1995 58478.1 11993.0 28537.9 17947.2 1996 67884.6 13844.2 33612.9 20427.5 1997 74462.6 14211.2 37222.7 23028.7 1998 78345.2 14552.4 38619.3 25173.5 1999 82067.5 14472.0 40557.8 27037.7 2000 89468.1 14628.2 44935.3 29904.6 2001 97314.8 15411.8 48750.0 33153.0 2002 105172.3 16117.3 52980.2 36074.8 2003 117390.2 16928.1 61274.1 39188.0 2004 136875.9 20768.1 72387.2 43720.6           因为回归方程为 , 可以解释为在 保持不变的前提下,当 增加一个单位时, (GDP)增加0.607个单位; 可以解释为在 保持不变的前提下,当 增加一个单位时, (GDP)增加1.709个单位。 但是,我在分析由SPSS得出的系数表时,得出如下结论: 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) 2914.646 1337.466   2.179 .050 第一产业增加值x1 .607 .299 .081 2.034 .065 第二产业增加值x2 1.709 .074 .921 23.175 .000 a. 因变量: GDP               由上表可知,回归方程并中回归系数 并没有通过显著性检。因此 与 之间可能存在共线性问题。即 与 之间存在对GDP的重复解释,或者说两个变量之间存在较强的相关性。 因此,用SPSS进行共线性诊断,得出如下表: 系数a 模型 非标准化系数 标准系数 t Sig. 共线性统计量 B 标准 误差 试用版 容差 VIF 1 (常量) 2914.646 1337.466   2.179 .050     第一产业增加值x1 .607 .299 .081 2.034 .065 .050 20.196 第二产业增加值x2 1.709 .074 .921 23.175 .000 .050 20.196 a. 因变量: GDP                   所以可知 与 的方差扩大因子为20.196,超过10,说明回归方程存在共线性问题。因此,剔除 后得出新的回归系数表如下: 系数a 模型 非标准化系数 标准系数 t Sig. 共线性统计量 B 标准 误差 试用版 容差 VIF 1 (常量) 5289.847 727.002   7.276 .000     第二产业增加值x2 1.855 .018 .999 101.473 .000 1.000 1.000 a. 因变量: GDP                   从上表可以看出,此时的回方程通过了相关检验。因此,可得出新的回归方程如下: 至此,我决定采用逐步回归的方法建立 对 、 、 的线性回归方程,由SPSS软件得出如下系数分析表 Coefficientsa Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) 5289.847 727.002   7.276 .000 第二产业增加值x2 1.855 .018 .999 101.473 .000 2 (Constant) 4352.859 679.065   6.410 .000 第二产业增加值x2 1.438 .151 .775 9.544 .000 第三产业增加值x3 .679 .244 .226 2.784 .017 3 (Constant) -5.826E-10 .001   .000 1.000 第二产业增加值x2 1.000 .000 .539 8488546.989 .000 第三产业增加值x3 1.000 .000 .333 6398212.472 .000 第一产业增加值x1 1.000 .000 .133 5783554.311 .000 a. Dependent Variable: GDP               因此,得出的回归方程为: (常数项太小,舍去) 可以看出,在加入 后, 与 的共线性特征得以消除;说明之前 与 的共线性是因为模型缺失了重要变量 引起的。 另一方面,从回归系数可以看出, 、 、 之间对 的贡献率是相同的。 实验三 违背基本假设的情况 (1)实验题目 下列数据是用电高峰每小时用电量y与每月用电量x的数据 (二)实验内容 (1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图 Coefficients   Unstandardized Coefficients Beta t Sig. B Std. Error Equation 1 (Constant) -.831 .441 -1.885 .065 x .004 .000 .840 11.045 .000               残差散点图: (2)诊断该问题是否存在异方差。 从(1)中的残差图中可以看出误差项具有明显的异方差随着y的增加呈现增加的态势 Correlations   x y Spearman's rho x Correlation Coefficient 1.000 .778** Sig. (2-tailed) . .000 N 53 53 y Correlation Coefficient .778** 1.000 Sig. (2-tailed) .000 . N 53 53 **. Correlation is significant at the 0.01 level (2-tailed).           则认为残差绝对值与自变量x显著相关,存在异方差 (3)如果存在异方差,用幂指数型的权函数建立加权最小二乘法回归方程 Model Description Dependent Variable y Independent Variables 1 x Weight Source x Power Value 1.500 Model: MOD_3.       M=1.5时可以建立最优权函数,此时得到: Coefficients   Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta Std. Error (Constant) -.685 .298     -2.303 .025 x .004 .000 .812 .082 9.941 .000               系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) .582 .130   4.481 .000 x .001 .000 .805 9.699 .000 a. 因变量: yy               (一)实验题目 某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变量是每周演出场次x1和乐队网站的周点击率x2,数据件下表: (二)实验内容 (1)用普通最小二乘法建立y与x1和x2的回归方程,用残差图及DW检验诊断序列的自相关性。 Coefficientsa Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) -574.062 349.271   -1.644 .107 周演出场次 x1 191.098 73.309 .345 2.607 .012 周点击率x2 2.045 .911 .297 2.246 .029 a. Dependent Variable: 销售额y               残差图如下: DW检验诊断 Model Summaryb Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1 .541a .293 .264 329.69302 .745 a. Predictors: (Constant), 周点击率x2, 周演出场次 x1 b. Dependent Variable: 销售额y             从残差图中明显看出误差项呈正相关性 由模型图中可以看出DW=0.745 在(0,2)的范围内,并且 在(0,1)范围内 所以误差项呈正相关性 (2)用迭代法处理序列相关,并建立回归方程。 此时首先计算出, =1-(1/2)*DW=0.6275  将其带入 = - 以及   计算出, , 然后再对 , 作普通最小二乘回归,计算结果如下: 模型汇总b   模型 R R 方 调整 R 方 标准 估计的误差 更改统计量 Durbin-Watson   R 方更改 F 更改 df1 df2 Sig. F 更改   1 .688a .473 .451 257.85878 .473 21.540 2 48 .000 1.716   a. 预测变量: (常量), x2p, x1p。   b. 因变量: yp   Anovab 模型 平方和 df 均方 F Sig. 1 回归 2864465.709 2 1432232.855 21.540 .000a   残差 3191575.287 48 66491.152       总计 6056040.996 50       a. 预测变量: (常量), x2p, x1p。 b. 因变量: yp                                       系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 B 标准 误差 试用版 下限 上限 1 (常量) -179.040 90.458   -1.979 .054 -360.919 2.839 x1p 211.107 47.758 .521 4.420 .000 115.082 307.132 x2p 1.437 .629 .269 2.285 .027 .172 2.701 a. 因变量: yp                   由系数表可以知道,此时的回归方程为: =-179.040+211.107 +1.437   还原为原始变量方程为: 由回归系数检验的分别得到此时两个自变量的t值及P值分别为:t=4.420  P=0.000    t=2.285  P=0.027 此时说明 对因变量的影响显著,而 对因变量的影响小。 (3)用一阶差分法处理数据,并建立回归方程。 首先先计算差分: yd=   ,然后用 作过原点的最小二乘估计,得到系数表如下: 模型汇总c,d   模型 R R 方b 调整 R 方 标准 估计的误差 更改统计量 Durbin-Watson   R 方更改 F 更改 df1 df2 Sig. F 更改   1 .715a .511 .491 280.98995 .511 25.564 2 49 .000 2.040   a. 预测变量: x2d, x1d   b. 对于通过原点的回归(无截距模型),R 方可测量(由回归解释的)原点附近的因变量中的可变性比例。 对于包含截距的模型,不能将此与 R 方相比较。   c. 因变量: yd   d. 通过原点的线性回归   Anovac,d 模型 平方和 df 均方 F Sig. 1 回归 4036879.696 2 2018439.848 25.564 .000a 残差 3868812.376 49 78955.355     总计 7.906E6 51       a. 预测变量: x2d, x1d b. 因为通过原点的回归的常量为零,所以对于该常量此总平方和是不正确的。 c. 因变量: yd d. 通过原点的线性回归                                       系数a,b 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 B 标准 误差 试用版 下限 上限 1 x1d 210.117 43.692 .544 4.809 .000 122.315 297.920 x2d 1.397 .577 .274 2.421 .019 .237 2.556 a. 因变量: yd b. 通过原点的线性回归                   由系数表可以知道,此时,回归方程为: ,还原为原始变量为: (4)比较以上各方法所建回归方程的优良性。 首先,由于原变量的随机误差项之间存在存在自相关性,由于自相关性带来的问题可以知道,普通最小二乘估计已经不再是最优的,即参数的估计值不再具有最小方差线性无偏性。 下面比较迭代法和一阶差分法哪个比较优。 其次,由迭代法得到的结果为:决定系数R方=0.437,DW=1.716 ,SSE=3191575.287  =257.858727,回归方程为: 两个自变量的回归系数检验分别为:t=4.420  P=0.000    t=2.285  P=0.027 最后,由一阶差分法得到的结果,决定系数为R方=0.511,DW=2.040 , SSE=3868812.376 =0.079,回归方程为: 两个自变量的回归系数的检验分别为t=4.809  P=0.000    t=2.421  P=0.019 由一般的回归方程中的决定系数越大越好,F ,t 值越大越好,残差的平方和越小越好, 即估计 越小越好,由上述结果可以知道,对于消除了序列自相关的两个方法中,迭代法所建立的回归方程较一阶差分法最优。 所以回归方程为: 实验四  自变量选择与回归 (1)实验题目 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为自变量:x1为农业增加值(亿元);x2为工业增加值(亿元);x3为建筑业增加值(亿元);x4为人口数(万人);x5为社会消费总额(亿元);x6为受灾面积(万公顷)。根据《中国统计年鉴》获得1978-1998年共21个年份的统计数据,见下表。由定性分析知,所选变量都与变量y有较强的相关性,分别用后退法和逐步回归法做自变量选元。 二、实验内容 1、逐步法 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 更改统计量 R 方更改 F 更改 df1 df2 Sig. F 更改 1 .994a .989 .988 285.67577 .989 1659.534 1 19 .000 2 .996b .992 .991 247.76997 .003 7.258 1 18 .015 3 .998c .996 .995 183.13396 .004 15.948 1 17 .001 a. 预测变量: (常量), x5。 b. 预测变量: (常量), x5, x1。 c. 预测变量: (常量), x5, x1, x2。                     Anovad 模型 平方和 df 均方 F Sig. 1 回归 1.354E8 1 1.354E8 1659.534 .000a 残差 1550602.244 19 81610.644     总计 1.370E8 20       2 回归 1.359E8 2 6.794E7 1106.706 .000b 残差 1105019.287 18 61389.960     总计 1.370E8 20       3 回归 1.364E8 3 4.547E7 1355.835 .000c 残差 570146.774 17 33538.046     总计 1.370E8 20       a. 预测变量: (常量), x5。 b. 预测变量: (常量), x5, x1。 c. 预测变量: (常量), x5, x1, x2。 d. 因变量: y               系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 相关性 共线性统计量 B 标准 误差 试用版 下限 上限 零阶 偏 部分 容差 VIF 1 (常量) 710.360 90.888   7.816 .000 520.128 900.591           x5 .180 .004 .994 40.737 .000 .171 .189 .994 .994 .994 1.000 1.000 2 (常量) 1011.893 136.897   7.392 .000 724.284 1299.502           x5 .311 .049 1.718 6.374 .000 .209 .414 .994 .832 .135 .006 162.146 x1 -.414 .154 -.726 -2.694 .015 -.737 -.091 .987 -.536 -.057 .006 162.146 3 (常量) 874.586 106.866   8.184 .000 649.118 1100.054           x5 .637 .089 3.516 7.142 .000 .449 .825 .994 .866 .112 .001 989.833 x1 -.611 .124 -1.073 -4.936 .000 -.872 -.350 .987 -.767 -.077 .005 192.871 x2 -.353 .088 -1.454 -3.994 .001 -.540 -.167 .992 -.696 -.062 .002 541.459 a. 因变量: y                             逐步法:最又回归子集模型1的回归方程为y=710.360+0.180x5 2、后退法: 系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 相关性 共线性统计量 B 标准 误差 试用版 下限 上限 零阶 偏 部分 容差 VIF 1 (常量) 1348.225 2211.467   .610 .552 -3394.900 6091.351           x1 -.641 .167 -1.125 -3.840 .002 -.999 -.283 .987 -.716 -.063 .003 319.484 x2 -.317 .204 -1.305 -1.551 .143 -.755 .121 .992 -.383 -.025 .000 2636.564 x3 -.413 .548 -.270 -.752 .464 -1.589 .764 .990 -.197 -.012 .002 479.288 x4 -.002 .024 -.007 -.087 .932 -.054 .050 .887 -.023 -.001 .037 27.177 x5 .671 .128 3.706 5.241 .000 .396 .946 .994 .814 .086 .001 1860.726 x6 -.008 .008 -.020 -.928 .369 -.025 .010 .513 -.241 -.015 .574 1.743 2 (常量) 1158.071 313.342   3.696 .002 490.199 1825.943           x1 -.650 .129 -1.140 -5.031 .000 -.925 -.374 .987 -.792 -.080 .005 204.671 x2 -.304 .129 -1.250 -2.352 .033 -.579 -.028 .992 -.519 -.037 .001 1125.887 x3 -.422 .519 -.276 -.814 .428 -1.528 .683 .990 -.206 -.013 .002 459.006 x5 .664 .094 3.666 7.060 .000 .463 .864 .994 .877 .112 .001 1074.590 x6 -.008 .007 -.021 -1.074 .300 -.023 .008 .513 -.267 -.017 .670 1.493 3 (常量) 1157.413 310.027   3.733 .002 500.185 1814.641           x1 -.630 .126 -1.106 -5.019 .000 -.897 -.364 .987 -.782 -.079 .005 197.748 x2 -.377 .092 -1.551 -4.102 .001 -.571 -.182 .992 -.716 -.064 .002 581.913 x5 .662 .093 3.656 7.118 .000 .465 .859 .994 .872 .112 .001 1073.973 x6 -.007 .007 -.018 -.972 .345 -.022 .008 .513 -.236 -.015 .685 1.459 4 (常量) 874.586 106.866   8.184 .000 649.118 1100.054           x1 -.611 .124 -1.073 -4.936 .000 -.872 -.350 .987 -.767 -.077 .005 192.871 x2 -.353 .088 -1.454 -3.994 .001 -.540 -.167 .992 -.696 -.062 .002 541.459 x5 .637 .089 3.516 7.142 .000 .449 .825 .994 .866 .112 .001 989.833 a. 因变量: y                             c 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 更改统计量 R 方更改 F 更改 df1 df2 Sig. F 更改 1 .998a .996 .995 191.84742 .996 617.984 6 14 .000 2 .998b .996 .995 185.39223 .000 .008 1 14 .932 3 .998c .996 .995 183.43168 .000 .663 1 15 .428 4 .998d .996 .995 183.13396 .000 .945 1 16 .345 a. 预测变量: (常量), x6, x3, x4, x1, x5, x2。 b. 预测变量: (常量), x6, x3, x1, x5, x2。 c. 预测变量: (常量), x6, x1, x5, x2。 d. 预测变量: (常量), x1, x5, x2。                     Anovae 模型 平方和 df 均方 F Sig. 1 回归 1.365E8 6 2.275E7 617.984 .000a 残差 515276.063 14 36805.433     总计 1.370E8 20       2 回归 1.365E8 5 2.729E7 794.121 .000b 残差 515554.163 15 34370.278     总计 1.370E8 20       3 回归 1.364E8 4 3.411E7 1013.814 .000c 残差 538354.928 16 33647.183     总计 1.370E8 20       4 回归 1.364E8 3 4.547E7 1355.835 .000d 残差 570146.774 17 33538.046     总计 1.370E8 20       a. 预测变量: (常量), x6, x3, x4, x1, x5, x2。 b. 预测变量: (常量), x6, x3, x1, x5, x2。 c. 预测变量: (常量), x6, x1, x5, x2。 d. 预测变量: (常量), x1, x5, x2。 e. 因变量: y               后退法:y=974.586-0.611x1-0.353x2+0.637x5
本文档为【应用回归分析实验报告】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_266065
暂无简介~
格式:doc
大小:23KB
软件:Word
页数:0
分类:
上传时间:2019-09-17
浏览量:27