重 庆 交 通 大 学
学 生 实 验 报 告
实验课程名称 应用回归
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
开课
实验室
17025实验室iso17025实验室认可实验室检查项目微生物实验室标识重点实验室计划
数学实验室
学 院 理学院 年级 专业班
学 生 姓 名 学 号
开 课 时 间 2013 至 2014 学年第 2 学期
评分细则
评分
报告
软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
述的清晰程度和完整性(20分)
程序设计的正确性(40分)
实验结果的分析(30分)
实验方法的创新性(10分)
总成绩
教师签名
邹昌文
2.15 一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。经过10周时间,收集了每周加班工作时间的数据和签发新保单数目,x为每周签发的新保单数目,y为每周加班工作时间(小时)。
表2.7
y
3.5
1
4
2
1
3
4.5
1.5
3
5
x
825
215
1070
550
480
920
1350
325
670
1215
(1)画散点图;
(2)x与y之间是否大致呈线性关系?
(3)用最小二乘估计求出回归方程;
(4)求回归
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
误差
;
(5)给出
、
的置信度为95%的区间估计;
(6)计算x与y的决定系数;
(7)对回归方程做方差分析;
(8)做回归系数
显著性检验;
(9)做相关系数的显著性检验;
(10)对回归方程做残差图并作相应的分析;
(11)该公司预计下一周签发新保单
张,需要的加班时间是多少?
(12)给出
的置信水平为95%的精确预测区间和近视预测区间。
(13)给出
置信水平为95%的区间估计。
(1)将数据输入到SPSS中,画出散点图如下:
(2)由下表可知x与y的相关系数高达0.949,大于0.8,所以x与y之间线性相关性显著。
相关性
y
x
Pearson 相关性
y
1.000
.949
x
.949
1.000
Sig. (单侧)
y
.
.000
x
.000
.
N
y
10
10
x
10
10
(3)用SPSS进行最小二乘估计得到了如下系数表:
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
相关性
共线性统计量
B
标准 误差
试用版
下限
上限
零阶
偏
部分
容差
VIF
1
(常量)
.118
.355
.333
.748
-.701
.937
x
.004
.000
.949
8.509
.000
.003
.005
.949
.949
.949
1.000
1.000
a. 因变量: y
由上表可知
、
的参数估计值
、
分别为0.118和0.004,所以y对x的线性回归方程为
(4)由SPSS得到如下模型汇总表:
模型汇总
模型
R
R 方
调整 R 方
标准 估计的误差
1
.949a
.900
.888
.4800
a. 预测变量: (常量), x。
由模型汇总表可知回归标准误差
=0.4800
(5)由以下系数表可知
、
的置信度为95%的区间估计分别为:
(-0.701,0.937)和(0.003,0.005)。
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
相关性
共线性统计量
B
标准 误差
试用版
下限
上限
零阶
偏
部分
容差
VIF
1
(常量)
.118
.355
.333
.748
-.701
.937
x
.004
.000
.949
8.509
.000
.003
.005
.949
.949
.949
1.000
1.000
a. 因变量: y
(6)做出模型汇总表:
模型汇总
模型
R
R 方
调整 R 方
标准 估计的误差
1
.949a
.900
.888
.4800
a. 预测变量: (常量), x。
由以上模型汇总表可知x与y的决定系数为
。
(7)对回归方程做方差分析;
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
16.682
1
16.682
72.396
.000a
残差
1.843
8
.230
总计
18.525
9
a. 预测变量: (常量), x。
b. 因变量: y
由方差分析表可以知道,
, 显著性
,可知其回归方程高度显著。即可说明
对
的线性回归高度显著,这与相关系数的检验结果是一致的!
(8)做回归系数
显著性检验;
得出系数表如下:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
.118
.355
.333
.748
x
.004
.000
.949
8.509
.000
a. 因变量: y
从系数表可以看出
的
,即
,所以
没有通过显著性检验,所以得出的回归系数
不可用。而
的
,即
,所以
通过了显著性检验。
(9)做相关系数的显著性检验;
相关性
y
x
Pearson 相关性
y
1.000
.949
x
.949
1.000
Sig. (单侧)
y
.
.000
x
.000
.
N
y
10
10
x
10
10
所以,由以上相关系数表中看到,相关系数
,单侧检验显著性
,即
,相关系数通过显著性检验。
(10)由EXCLE处理得到如下样本点x对应的残差e:
x
825
215
1070
550
480
920
1350
325
670
1215
e
0.082
0.022
-0.398
-0.318
-1.038
-0.798
-1.018
0.082
0.202
0.022
由以上残差图可以看出,所有残差都是在
附近随机变化,并在变化幅度不大的一条子带内。因此,回归模型满足所给出的基本假设。
(11)该公司预计下一周签发新保单
张,由已得的最小二乘估计回归方程
,将
带入求得
,所以需要加班4.118个小时。
(12)给出
的置信水平为95%的精确预测区间和近似预测区间。
由SPSS得出的精确预测区间和近似预测区间如下:
(13)给出
置信水平为95%的区间估计。
因为
置信水平为
的置信区间为:
查(12)中的表,可知
置信水平为
的置信区间为为:
2.16 表2.8是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和学生的人均经费投入x(美元)。
表2.8
序号
y
x
序号
y
x
序号
y
x
1
19583
3346
18
20816
3059
35
19538
2642
2
20263
3114
19
18095
2967
36
20460
3124
3
20325
3554
20
20939
3285
37
21419
2752
4
26800
4542
21
22644
3914
38
25106
3429
5
29470
4669
22
24624
4517
39
22482
3947
6
26610
4888
23
27186
4349
40
20969
2509
7
30678
5710
24
33990
5020
41
27224
5440
8
27170
5536
25
23382
3594
42
25892
4042
9
25853
4168
26
20627
2821
43
22644
3402
10
24500
3547
27
22795
3366
44
24640
2829
11
24274
3159
28
21570
2920
45
22341
2297
12
27140
3621
29
22080
2980
46
25610
2932
13
30168
3782
30
22250
3731
47
26015
3705
14
26525
4247
31
20940
2853
48
25788
4123
15
27360
3982
32
21800
2533
49
29132
3608
16
21690
3568
33
22934
2729
50
41480
8349
17
21974
3155
34
18443
2305
51
25845
3766
(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?
(2)建立y对x的线性回归;
(3)用线性回归的Plots功能绘制标准残差的直方图和正态概率图,检验误差项的正态性假设。
(1).由以上的51组数据用SPSS画出y对x的散点图如下:
由下面的相关性表可知y与x之间的相关系数为0.835,大于0.8,单侧检验显著性
,即
,因此y与x之间具有高度的线性相关性,故可以用直线回归描述两者之间的关系。
相关性
y
x
Pearson 相关性
y
1.000
.835
x
.835
1.000
Sig. (单侧)
y
.
.000
x
.000
.
N
y
51
51
x
51
51
如下图所示:
(2).由线性回归统计得到以下系数表:
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
相关性
共线性统计量
B
标准 误差
试用版
下限
上限
零阶
偏
部分
容差
VIF
1
(常量)
12109.879
1196.948
10.117
.000
9704.521
14515.236
x
3.314
.312
.835
10.630
.000
2.688
3.941
.835
.835
.835
1.000
1.000
a. 因变量: y
可知
、
的参数估计值
、
分别为12109.879和3.314,所以y对x的线性回归方程为
(3).用线性回归的Plots功能绘制出标准残差的直方图和正态概率图如下:
由以下的的残差统计量可知残差值服从正态分布,故通过正态性假设检验。
残差统计量a
极小值
极大值
均值
标准 偏差
N
预测值
19722.53
39779.89
24354.57
3490.019
51
残差
-3848.022
5523.929
.000
2298.333
51
标准 预测值
-1.327
4.420
.000
1.000
51
标准 残差
-1.657
2.379
.000
.990
51
a. 因变量: y
通过观察PP图来检验误差的正态性假设的PP图如下:
由PP图可以看出所有点分布在直线附近,显然可知通过正态性假设检验。
3.11 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民分商品指出x3(亿元)的关系。
(1)计算出y,x1,x2,x3的相关系数矩阵;
(2)求y关于x1,x2,x3的三元线性回归方程;
(3)对所求得的方程作拟合优度检验;
(4)对回归方程做显著性检验;
(5)对每一个回归系数做显著性检验;
(6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再做回归方程的显著性检验和回归系数的显著性检验;
(7)求出每一个回归系数的置信水平为95%的置信区间;
(8)求标准化回归方程;
(9)求档x01=75,x02=42,x03=3.1时的y0^,给定置信水平为95%,用SPSS软件计算精确置信区间,用手工计算近似预测区间;
(10)结合回归方程对问题做一些基本分析。
表3.9
货运总量y(万吨)
工业总产值x1亿元
农业总产值x2亿元
居民非商品支出x3(亿元)
160
70
35
1.0
260
75
40
2.4
210
65
40
2.0
265
74
42
3.0
240
72
38
1.2
220
68
45
1.5
275
78
42
4.0
160
66
36
2.0
275
70
44
3.2
250
65
42
3.0
(1) 计算出y,x1,x2,x3的相关系数矩阵;
由得出相关性分析表如下:
相关性
货运总量y(万吨)
工业总产值x1亿元
农业总产值x2亿元
居民非商品之处x3(亿元)
Pearson 相关性
货运总量y(万吨)
1.000
.556
.731
.724
工业总产值x1亿元
.556
1.000
.113
.398
农业总产值x2亿元
.731
.113
1.000
.547
居民非商品之处x3(亿元)
.724
.398
.547
1.000
Sig. (单侧)
货运总量y(万吨)
.
.048
.008
.009
工业总产值x1亿元
.048
.
.378
.127
农业总产值x2亿元
.008
.378
.
.051
居民非商品之处x3(亿元)
.009
.127
.051
.
N
货运总量y(万吨)
10
10
10
10
工业总产值x1亿元
10
10
10
10
农业总产值x2亿元
10
10
10
10
居民非商品之处x3(亿元)
10
10
10
10
从上表可以看出,y,x1,x2,x3的相关系数矩阵为:
(2)求y关于x1,x2,x3的三元线性回归方程;
得出系数表如下:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
-348.280
176.459
-1.974
.096
工业总产值x1亿元
3.754
1.933
.385
1.942
.100
农业总产值x2亿元
7.101
2.880
.535
2.465
.049
居民非商品之处x3(亿元)
12.447
10.569
.277
1.178
.284
a. 因变量: 货运总量y(万吨)
从上表可以看出,得出的y关于x1,x2,x3的三元线性回归方程为:
(3)对所求得的方程作拟合优度检验;
由SPSS做拟合优度检验见下表:
模型汇总
模型
R
R 方
调整 R 方
标准 估计的误差
1
.898a
.806
.708
23.442
a. 预测变量: (常量), 居民非商品之处x3(亿元), 工业总产值x1亿元, 农业总产值x2亿元。
所以可知
,即
。因此,我对模型给出肯定态度!
(4)对回归方程做显著性检验;
由SPSS得出方差分析表如下:
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
13655.370
3
4551.790
8.283
.015a
残差
3297.130
6
549.522
总计
16952.500
9
a. 预测变量: (常量), 居民非商品之处x3(亿元), 工业总产值x1亿元, 农业总产值x2亿元。
b. 因变量: 货运总量y(万吨)
从上表可以看出,
,显著性
。所以,回归方差通过显著性检验。
(5)对每一个回归系数做显著性检验;
由SPSS得出系数回归分析表:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
-348.280
176.459
-1.974
.096
工业总产值x1亿元
3.754
1.933
.385
1.942
.100
农业总产值x2亿元
7.101
2.880
.535
2.465
.049
居民非商品之处x3(亿元)
12.447
10.569
.277
1.178
.284
a. 因变量: 货运总量y(万吨)
可知
的显著性
,即
,因此
未通过显著性检验。
又
的显著性
,即
,因此
未通过显著性检验。
又
的显著性
,即
,因此
通过显著性检验。
最后,
的显著性
,即
,因此
未通过显著性检验。
(6)如果有的回归系数没通过显著性检验,将其剔除,重新建立回归方程,再做回归方程的显著性检验和回归系数的显著性检验;
由第(5)小题可知,
显著性最低;因此,我将
剔除后继续建立回归方程,由SPSS得出方差表和系数表如下:
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
12893.199
2
6446.600
11.117
.007a
残差
4059.301
7
579.900
总计
16952.500
9
a. 预测变量: (常量), 农业总产值x2亿元, 工业总产值x1亿元。
b. 因变量: 货运总量y(万吨)
从上表可以看出,
,显著性
。所以,回归方差通过显著性检验。
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
-459.624
153.058
-3.003
.020
工业总产值x1亿元
4.676
1.816
.479
2.575
.037
农业总产值x2亿元
8.971
2.468
.676
3.634
.008
a. 因变量: 货运总量y(万吨)
可知
的显著性
,即
,因此
通过显著性检验。
又
的显著性
,即
,因此
通过显著性检验。
又
的显著性
,即
,因此
通过显著性检验。
(7)求出每一个回归系数的置信水平为95%的置信区间;
由SPSS得出每个回归系数的置信水平为95%的置信区间如下:
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
B
标准 误差
试用版
下限
上限
1
(常量)
-459.624
153.058
-3.003
.020
-821.547
-97.700
工业总产值x1亿元
4.676
1.816
.479
2.575
.037
.381
8.970
农业总产值x2亿元
8.971
2.468
.676
3.634
.008
3.134
14.808
a. 因变量: 货运总量y(万吨)
可知
的置信区间为:
的置信区间为:
的置信区间为:
(8)求标准化回归方程;
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
-459.624
153.058
-3.003
.020
工业总产值x1亿元
4.676
1.816
.479
2.575
.037
农业总产值x2亿元
8.971
2.468
.676
3.634
.008
a. 因变量: 货运总量y(万吨)
由上表可知,标准化回归方程为:
(9)求当x01=75,x02=42,x03=3.1时的
,给定置信水平为95%,用SPSS软件计算精确置信区间,用手工计算近似预测区间;
由SPSS得出的精确置信区间和近似预测区间如下表所示:
从上表可以看出,求当x01=75,x02=42,x03=3.1时的精确置信区间
;
近似预测区间为:
(10)结合回归方程对问题做一些基本分析。
因为回归方程为
所以可知,在保持
不变的情况下,当
变化一个单位(亿元)时,
增加4.676个单位(万吨);而在保持
不变的情况下,当
变化一个单位(亿元)时,
增加8.971个单位(万吨)。
3.12 用表3.10的数据,建立GDP对
和
的回归,对得到的二元回归方程
,你能够合理的解释两个回归系数吗?如果现在不能给出合理的解释,不妨在学过第6章多重共线性后再来解释这个问题,在学过第7章领回归后再来改进这个问题。同时,根据下面的数据,分析得出一些您认为的有关的结论!
表3.10 国内生产总值和第三次产业数据
年份
GDP
第一产业增加值x1
第二产业增加值x2
第三产业增加值x3
1990
18547.9
5017.0
7717.4
5813.5
1991
21617.8
5288.6
9102.2
7227.0
1992
26638.1
5800.0
11699.5
9138.6
1993
34634.4
6882.1
16428.5
11323.8
1994
46759.4
9457.2
22372.2
14930.0
1995
58478.1
11993.0
28537.9
17947.2
1996
67884.6
13844.2
33612.9
20427.5
1997
74462.6
14211.2
37222.7
23028.7
1998
78345.2
14552.4
38619.3
25173.5
1999
82067.5
14472.0
40557.8
27037.7
2000
89468.1
14628.2
44935.3
29904.6
2001
97314.8
15411.8
48750.0
33153.0
2002
105172.3
16117.3
52980.2
36074.8
2003
117390.2
16928.1
61274.1
39188.0
2004
136875.9
20768.1
72387.2
43720.6
因为回归方程为
,
可以解释为在
保持不变的前提下,当
增加一个单位时,
(GDP)增加0.607个单位;
可以解释为在
保持不变的前提下,当
增加一个单位时,
(GDP)增加1.709个单位。
但是,我在分析由SPSS得出的系数表时,得出如下结论:
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
2914.646
1337.466
2.179
.050
第一产业增加值x1
.607
.299
.081
2.034
.065
第二产业增加值x2
1.709
.074
.921
23.175
.000
a. 因变量: GDP
由上表可知,回归方程并中回归系数
并没有通过显著性检。因此
与
之间可能存在共线性问题。即
与
之间存在对GDP的重复解释,或者说两个变量之间存在较强的相关性。
因此,用SPSS进行共线性诊断,得出如下表:
系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准 误差
试用版
容差
VIF
1
(常量)
2914.646
1337.466
2.179
.050
第一产业增加值x1
.607
.299
.081
2.034
.065
.050
20.196
第二产业增加值x2
1.709
.074
.921
23.175
.000
.050
20.196
a. 因变量: GDP
所以可知
与
的方差扩大因子为20.196,超过10,说明回归方程存在共线性问题。因此,剔除
后得出新的回归系数表如下:
系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准 误差
试用版
容差
VIF
1
(常量)
5289.847
727.002
7.276
.000
第二产业增加值x2
1.855
.018
.999
101.473
.000
1.000
1.000
a. 因变量: GDP
从上表可以看出,此时的回方程通过了相关检验。因此,可得出新的回归方程如下:
至此,我决定采用逐步回归的方法建立
对
、
、
的线性回归方程,由SPSS软件得出如下系数分析表
Coefficientsa
Model
Unstandardized Coefficients
Standardized Coefficients
t
Sig.
B
Std. Error
Beta
1
(Constant)
5289.847
727.002
7.276
.000
第二产业增加值x2
1.855
.018
.999
101.473
.000
2
(Constant)
4352.859
679.065
6.410
.000
第二产业增加值x2
1.438
.151
.775
9.544
.000
第三产业增加值x3
.679
.244
.226
2.784
.017
3
(Constant)
-5.826E-10
.001
.000
1.000
第二产业增加值x2
1.000
.000
.539
8488546.989
.000
第三产业增加值x3
1.000
.000
.333
6398212.472
.000
第一产业增加值x1
1.000
.000
.133
5783554.311
.000
a. Dependent Variable: GDP
因此,得出的回归方程为:
(常数项太小,舍去)
可以看出,在加入
后,
与
的共线性特征得以消除;说明之前
与
的共线性是因为模型缺失了重要变量
引起的。
另一方面,从回归系数可以看出,
、
、
之间对
的贡献率是相同的。
实验三 违背基本假设的情况
(1)实验题目
下列数据是用电高峰每小时用电量y与每月用电量x的数据
(二)实验内容
(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图
Coefficients
Unstandardized Coefficients
Beta
t
Sig.
B
Std. Error
Equation 1
(Constant)
-.831
.441
-1.885
.065
x
.004
.000
.840
11.045
.000
残差散点图:
(2)诊断该问题是否存在异方差。
从(1)中的残差图中可以看出误差项具有明显的异方差随着y的增加呈现增加的态势
Correlations
x
y
Spearman's rho
x
Correlation Coefficient
1.000
.778**
Sig. (2-tailed)
.
.000
N
53
53
y
Correlation Coefficient
.778**
1.000
Sig. (2-tailed)
.000
.
N
53
53
**. Correlation is significant at the 0.01 level (2-tailed).
则认为残差绝对值与自变量x显著相关,存在异方差
(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘法回归方程
Model Description
Dependent Variable
y
Independent Variables
1
x
Weight
Source
x
Power Value
1.500
Model: MOD_3.
M=1.5时可以建立最优权函数,此时得到:
Coefficients
Unstandardized Coefficients
Standardized Coefficients
t
Sig.
B
Std. Error
Beta
Std. Error
(Constant)
-.685
.298
-2.303
.025
x
.004
.000
.812
.082
9.941
.000
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
.582
.130
4.481
.000
x
.001
.000
.805
9.699
.000
a. 因变量: yy
(一)实验题目
某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变量是每周演出场次x1和乐队网站的周点击率x2,数据件下表:
(二)实验内容
(1)用普通最小二乘法建立y与x1和x2的回归方程,用残差图及DW检验诊断序列的自相关性。
Coefficientsa
Model
Unstandardized Coefficients
Standardized Coefficients
t
Sig.
B
Std. Error
Beta
1
(Constant)
-574.062
349.271
-1.644
.107
周演出场次 x1
191.098
73.309
.345
2.607
.012
周点击率x2
2.045
.911
.297
2.246
.029
a. Dependent Variable: 销售额y
残差图如下:
DW检验诊断
Model Summaryb
Model
R
R Square
Adjusted R Square
Std. Error of the Estimate
Durbin-Watson
1
.541a
.293
.264
329.69302
.745
a. Predictors: (Constant), 周点击率x2, 周演出场次 x1
b. Dependent Variable: 销售额y
从残差图中明显看出误差项呈正相关性
由模型图中可以看出DW=0.745 在(0,2)的范围内,并且
在(0,1)范围内
所以误差项呈正相关性
(2)用迭代法处理序列相关,并建立回归方程。
此时首先计算出,
=1-(1/2)*DW=0.6275 将其带入
=
-
以及
计算出,
,
然后再对
,
作普通最小二乘回归,计算结果如下:
模型汇总b
模型
R
R 方
调整 R 方
标准 估计的误差
更改统计量
Durbin-Watson
R 方更改
F 更改
df1
df2
Sig. F 更改
1
.688a
.473
.451
257.85878
.473
21.540
2
48
.000
1.716
a. 预测变量: (常量), x2p, x1p。
b. 因变量: yp
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
2864465.709
2
1432232.855
21.540
.000a
残差
3191575.287
48
66491.152
总计
6056040.996
50
a. 预测变量: (常量), x2p, x1p。
b. 因变量: yp
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
B
标准 误差
试用版
下限
上限
1
(常量)
-179.040
90.458
-1.979
.054
-360.919
2.839
x1p
211.107
47.758
.521
4.420
.000
115.082
307.132
x2p
1.437
.629
.269
2.285
.027
.172
2.701
a. 因变量: yp
由系数表可以知道,此时的回归方程为:
=-179.040+211.107
+1.437
还原为原始变量方程为:
由回归系数检验的分别得到此时两个自变量的t值及P值分别为:t=4.420 P=0.000 t=2.285 P=0.027 此时说明
对因变量的影响显著,而
对因变量的影响小。
(3)用一阶差分法处理数据,并建立回归方程。
首先先计算差分:
yd=
,然后用
作过原点的最小二乘估计,得到系数表如下:
模型汇总c,d
模型
R
R 方b
调整 R 方
标准 估计的误差
更改统计量
Durbin-Watson
R 方更改
F 更改
df1
df2
Sig. F 更改
1
.715a
.511
.491
280.98995
.511
25.564
2
49
.000
2.040
a. 预测变量: x2d, x1d
b. 对于通过原点的回归(无截距模型),R 方可测量(由回归解释的)原点附近的因变量中的可变性比例。 对于包含截距的模型,不能将此与 R 方相比较。
c. 因变量: yd
d. 通过原点的线性回归
Anovac,d
模型
平方和
df
均方
F
Sig.
1
回归
4036879.696
2
2018439.848
25.564
.000a
残差
3868812.376
49
78955.355
总计
7.906E6
51
a. 预测变量: x2d, x1d
b. 因为通过原点的回归的常量为零,所以对于该常量此总平方和是不正确的。
c. 因变量: yd
d. 通过原点的线性回归
系数a,b
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
B
标准 误差
试用版
下限
上限
1
x1d
210.117
43.692
.544
4.809
.000
122.315
297.920
x2d
1.397
.577
.274
2.421
.019
.237
2.556
a. 因变量: yd
b. 通过原点的线性回归
由系数表可以知道,此时,回归方程为:
,还原为原始变量为:
(4)比较以上各方法所建回归方程的优良性。
首先,由于原变量的随机误差项之间存在存在自相关性,由于自相关性带来的问题可以知道,普通最小二乘估计已经不再是最优的,即参数的估计值不再具有最小方差线性无偏性。
下面比较迭代法和一阶差分法哪个比较优。
其次,由迭代法得到的结果为:决定系数R方=0.437,DW=1.716 ,SSE=3191575.287
=257.858727,回归方程为:
两个自变量的回归系数检验分别为:t=4.420 P=0.000 t=2.285 P=0.027
最后,由一阶差分法得到的结果,决定系数为R方=0.511,DW=2.040 , SSE=3868812.376
=0.079,回归方程为:
两个自变量的回归系数的检验分别为t=4.809 P=0.000 t=2.421 P=0.019
由一般的回归方程中的决定系数越大越好,F ,t 值越大越好,残差的平方和越小越好, 即估计
越小越好,由上述结果可以知道,对于消除了序列自相关的两个方法中,迭代法所建立的回归方程较一阶差分法最优。
所以回归方程为:
实验四 自变量选择与回归
(1)实验题目
在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为自变量:x1为农业增加值(亿元);x2为工业增加值(亿元);x3为建筑业增加值(亿元);x4为人口数(万人);x5为社会消费总额(亿元);x6为受灾面积(万公顷)。根据《中国统计年鉴》获得1978-1998年共21个年份的统计数据,见下表。由定性分析知,所选变量都与变量y有较强的相关性,分别用后退法和逐步回归法做自变量选元。
二、实验内容
1、逐步法
模型汇总
模型
R
R 方
调整 R 方
标准 估计的误差
更改统计量
R 方更改
F 更改
df1
df2
Sig. F 更改
1
.994a
.989
.988
285.67577
.989
1659.534
1
19
.000
2
.996b
.992
.991
247.76997
.003
7.258
1
18
.015
3
.998c
.996
.995
183.13396
.004
15.948
1
17
.001
a. 预测变量: (常量), x5。
b. 预测变量: (常量), x5, x1。
c. 预测变量: (常量), x5, x1, x2。
Anovad
模型
平方和
df
均方
F
Sig.
1
回归
1.354E8
1
1.354E8
1659.534
.000a
残差
1550602.244
19
81610.644
总计
1.370E8
20
2
回归
1.359E8
2
6.794E7
1106.706
.000b
残差
1105019.287
18
61389.960
总计
1.370E8
20
3
回归
1.364E8
3
4.547E7
1355.835
.000c
残差
570146.774
17
33538.046
总计
1.370E8
20
a. 预测变量: (常量), x5。
b. 预测变量: (常量), x5, x1。
c. 预测变量: (常量), x5, x1, x2。
d. 因变量: y
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
相关性
共线性统计量
B
标准 误差
试用版
下限
上限
零阶
偏
部分
容差
VIF
1
(常量)
710.360
90.888
7.816
.000
520.128
900.591
x5
.180
.004
.994
40.737
.000
.171
.189
.994
.994
.994
1.000
1.000
2
(常量)
1011.893
136.897
7.392
.000
724.284
1299.502
x5
.311
.049
1.718
6.374
.000
.209
.414
.994
.832
.135
.006
162.146
x1
-.414
.154
-.726
-2.694
.015
-.737
-.091
.987
-.536
-.057
.006
162.146
3
(常量)
874.586
106.866
8.184
.000
649.118
1100.054
x5
.637
.089
3.516
7.142
.000
.449
.825
.994
.866
.112
.001
989.833
x1
-.611
.124
-1.073
-4.936
.000
-.872
-.350
.987
-.767
-.077
.005
192.871
x2
-.353
.088
-1.454
-3.994
.001
-.540
-.167
.992
-.696
-.062
.002
541.459
a. 因变量: y
逐步法:最又回归子集模型1的回归方程为y=710.360+0.180x5
2、后退法:
系数a
模型
非标准化系数
标准系数
t
Sig.
B 的 95.0% 置信区间
相关性
共线性统计量
B
标准 误差
试用版
下限
上限
零阶
偏
部分
容差
VIF
1
(常量)
1348.225
2211.467
.610
.552
-3394.900
6091.351
x1
-.641
.167
-1.125
-3.840
.002
-.999
-.283
.987
-.716
-.063
.003
319.484
x2
-.317
.204
-1.305
-1.551
.143
-.755
.121
.992
-.383
-.025
.000
2636.564
x3
-.413
.548
-.270
-.752
.464
-1.589
.764
.990
-.197
-.012
.002
479.288
x4
-.002
.024
-.007
-.087
.932
-.054
.050
.887
-.023
-.001
.037
27.177
x5
.671
.128
3.706
5.241
.000
.396
.946
.994
.814
.086
.001
1860.726
x6
-.008
.008
-.020
-.928
.369
-.025
.010
.513
-.241
-.015
.574
1.743
2
(常量)
1158.071
313.342
3.696
.002
490.199
1825.943
x1
-.650
.129
-1.140
-5.031
.000
-.925
-.374
.987
-.792
-.080
.005
204.671
x2
-.304
.129
-1.250
-2.352
.033
-.579
-.028
.992
-.519
-.037
.001
1125.887
x3
-.422
.519
-.276
-.814
.428
-1.528
.683
.990
-.206
-.013
.002
459.006
x5
.664
.094
3.666
7.060
.000
.463
.864
.994
.877
.112
.001
1074.590
x6
-.008
.007
-.021
-1.074
.300
-.023
.008
.513
-.267
-.017
.670
1.493
3
(常量)
1157.413
310.027
3.733
.002
500.185
1814.641
x1
-.630
.126
-1.106
-5.019
.000
-.897
-.364
.987
-.782
-.079
.005
197.748
x2
-.377
.092
-1.551
-4.102
.001
-.571
-.182
.992
-.716
-.064
.002
581.913
x5
.662
.093
3.656
7.118
.000
.465
.859
.994
.872
.112
.001
1073.973
x6
-.007
.007
-.018
-.972
.345
-.022
.008
.513
-.236
-.015
.685
1.459
4
(常量)
874.586
106.866
8.184
.000
649.118
1100.054
x1
-.611
.124
-1.073
-4.936
.000
-.872
-.350
.987
-.767
-.077
.005
192.871
x2
-.353
.088
-1.454
-3.994
.001
-.540
-.167
.992
-.696
-.062
.002
541.459
x5
.637
.089
3.516
7.142
.000
.449
.825
.994
.866
.112
.001
989.833
a. 因变量: y
c
模型汇总
模型
R
R 方
调整 R 方
标准 估计的误差
更改统计量
R 方更改
F 更改
df1
df2
Sig. F 更改
1
.998a
.996
.995
191.84742
.996
617.984
6
14
.000
2
.998b
.996
.995
185.39223
.000
.008
1
14
.932
3
.998c
.996
.995
183.43168
.000
.663
1
15
.428
4
.998d
.996
.995
183.13396
.000
.945
1
16
.345
a. 预测变量: (常量), x6, x3, x4, x1, x5, x2。
b. 预测变量: (常量), x6, x3, x1, x5, x2。
c. 预测变量: (常量), x6, x1, x5, x2。
d. 预测变量: (常量), x1, x5, x2。
Anovae
模型
平方和
df
均方
F
Sig.
1
回归
1.365E8
6
2.275E7
617.984
.000a
残差
515276.063
14
36805.433
总计
1.370E8
20
2
回归
1.365E8
5
2.729E7
794.121
.000b
残差
515554.163
15
34370.278
总计
1.370E8
20
3
回归
1.364E8
4
3.411E7
1013.814
.000c
残差
538354.928
16
33647.183
总计
1.370E8
20
4
回归
1.364E8
3
4.547E7
1355.835
.000d
残差
570146.774
17
33538.046
总计
1.370E8
20
a. 预测变量: (常量), x6, x3, x4, x1, x5, x2。
b. 预测变量: (常量), x6, x3, x1, x5, x2。
c. 预测变量: (常量), x6, x1, x5, x2。
d. 预测变量: (常量), x1, x5, x2。
e. 因变量: y
后退法:y=974.586-0.611x1-0.353x2+0.637x5