首页 时间序列分析05虚拟变量

时间序列分析05虚拟变量

举报
开通vip

时间序列分析05虚拟变量虚拟变量(dummy variable) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1. 截距移动 设有模型, yt = (0 + (1 xt + (2D + ut , 其中yt,xt为定量变量;D为...

时间序列分析05虚拟变量
虚拟变量(dummy variable) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1. 截距移动 设有模型, yt = (0 + (1 xt + (2D + ut , 其中yt,xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为, (0 + (1xt + ut , (D = 0) yt = ((0 + (2) + (1xt + ut , (D = 1) 图8.1 测量截距不同 D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若(2显著不为零,说明截距不同;若(2为零,说明这种分类无显著性差异。 例:中国成年人体重y(kg)与身高x(cm)的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ① 若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。 ② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category)。 ④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D = 0 (中学) -1 (小学)。 例1:中国季节GDP数据的拟合(虚拟变量应用,file: Dummy05) GDP序列图 不用虚拟变量的情形 若不采用虚拟变量,得回归结果如下, GDP = 1.5427 + 0.0405 T (11.0) (3.5) R2 = 0.3991, DW = 2.6, s.e. = 0.3 定义 1 (1季度) 1 (2季度) 1 (3季度) D1 = D2 = D3 = 0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度) 第4季度为基础类别。 GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3 (64.2) (15.9) (-24.9) (-16.1) (-15.8) R2 = 0.9863, DW = 1.96, s.e. = 0.05 附数据如下: 年 GDP t D1 D2 D3 1996:1 1.3156 1 1 0 0 1996:2 1.6600 2 0 1 0 1996:3 1.5919 3 0 0 1 1996:4 2.22096 4 0 0 0 1997:1 1.46856 5 1 0 0 1997:2 1.84948 6 0 1 0 1997:3 1.7972 7 0 0 1 1997:4 2.3620 8 0 0 0 1998:1 1.58994 9 1 0 0 1998:2 1.88316 10 0 1 0 1998:3 1.97044 11 0 0 1 1998:4 2.51176 12 0 0 0 1999:1 1.6784 13 1 0 0 1999:2 1.9405 14 0 1 0 1999:3 2.0611 15 0 0 1 1999:4 2.5254 16 0 0 0 2000:1 1.8173 17 1 0 0 2000:2 2.1318 18 0 1 0 2000:3 2.2633 19 0 0 1 2000:4 2.7280 20 0 0 0 数据来源:《中国统计年鉴》1998-2001 2. 斜率变化 以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型: yt = (0 + (1 xt + (2 D + (3 xt D + ut , 其中xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为, ((0 + (2 ) + ((1 + (3)xt + ut , (D = 1) yt = (0 + (1 xt + ut , (D = 0) 通过检验 (3是否为零,可判断模型斜率是否发生变化。 图8.5 情形1(不同类别数据的截距和斜率不同) 图8.6 情形2(不同类别数据的截距和斜率不同) 例2:用虚拟变量区别不同历史时期(file:dummy2) 中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下 0 (1950 - 1977) D = 1 (1978 - 1984) 中国进出口贸易总额数据(1950-1984) (单位:百亿元人民币) 年 trade time D time D 年 trade time D time D 1950 0.415 1 0 0 1968 1.085 19 0 0 1951 0.595 2 0 0 1969 1.069 20 0 0 1952 0.646 3 0 0 1970 1.129 21 0 0 1953 0.809 4 0 0 1971 1.209 22 0 0 1954 0.847 5 0 0 1972 1.469 23 0 0 1955 1.098 6 0 0 1973 2.205 24 0 0 1956 1.087 7 0 0 1974 2.923 25 0 0 1957 1.045 8 0 0 1975 2.904 26 0 0 1958 1.287 9 0 0 1976 2.641 27 0 0 1959 1.493 10 0 0 1977 2.725 28 0 0 1960 1.284 11 0 0 1978 3.550 29 1 29 1961 0.908 12 0 0 1979 4.546 30 1 30 1962 0.809 13 0 0 1980 5.638 31 1 31 1963 0.857 14 0 0 1981 7.353 32 1 32 1964 0.975 15 0 0 1982 7.713 33 1 33 1965 1.184 16 0 0 1983 8.601 34 1 34 1966 1.271 17 0 0 1984 12.010 35 1 35 1967 1.122 18 0 0 以时间time为解释变量,进出口贸易总额用trade表示,估计结果如下: trade = 0.37 + 0.066 time - 33.96D + 1.20 time D (1.86) (5.53) (-10.98) (12.42) 0.37 + 0.066 time (D = 0, 1950 - 1977) = - 33.59 + 1.27 time (D = 1, 1978 - 1984) 上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了18倍。 例3:香港季节GDP数据(单位:千亿港元)的拟合(虚拟变量应用, file:dummy6) 1990~1997年香港季度GDP呈线性增长。1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,1998~2002年底GDP总量几乎没有增长(见上图)。对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT如下(数据见附录): 1 (第2季度) D2 = 0 (其他季度) 1 (第3季度) D3 = 0 (其他季度) 1 (第4季度) D4 = 0 (其他季度) 1 (1998:1~2002:4) DT = 0 (1990:1 ~1997:4) 得估计结果如下: GDPt = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4+ 1.8338 DT - 0.0654 DT( t (50.8) (64.6) (3.7) (9.9) (11.0) (19.9) (-28.0) R2 = 0.99, DW = 0.9, s.e. = 0.05, F=1198.4, T=52, t0.05 (52-7) = 2.01 对于1990:1 ~1997:4 GDPt = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4 对于1998:1~2002:4 GDPt = 2.9911 + 0.0014 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4 如果不采用虚拟变量拟合效果将很差。 GDPt = 1.6952 + 0.0377 t (20.6) (13.9) R2 = 0.80, DW = 0.3, T=52, t0.05 (52-2) = 2.01 案例 全员育人导师制案例信息技术应用案例心得信息技术教学案例综合实践活动案例我余额宝案例 5 天津市粮食市场小麦批发价与面粉零售价的关系研究(file: xiezhiyong) 首先看天津市粮食市场小麦批发价格的变化情况(图1)。1995年初,天津市粮食市场的小麦批发价格首先放开。在经历5个月的上扬之后,进入平稳波动期。从1996年8月份开始小麦批发价格一路走低。至2002年12月份,小麦批发价格降至是1160元/吨。 其次看面粉零售价的变化情况。因为面粉零售价格直接关系到居民的日常生活,所以开始时没有与小麦批发价格一起放开。当小麦批发价格一路看涨时,1995年1月至1996年6月面粉零售价格一直处于2.14元/千克的水平上。1996年7月起,面粉零售价格也开始在市场上放开。受小麦批发价格上涨的影响,一个月内面粉零售价格从2.14元/千克涨到2.74元/千克。在这个价位上坚持了11个月之后,面粉零售价格开始下降。与小麦批发价格的下降相一致,在经历了5年零7个月的变化之后,面粉零售价格又恢复到接近开放前2.14元/千克的水平上(2.17元)。 散点图如图2。按时间分析这些观测点的变化情况(见图3,逆时针方向运动)。见图4,直接拟合这些数据效果将很差(R2 = 0.027, r = 0.17)。 图1 图2 图3 图4 利用虚拟变量技术,在模型中加入虚拟变量。定义 D = 0,(1995: 1~1996:6,面粉零售价格放开之前), D = 1,(1996:7~2002:12,面粉零售价格放开之后)。 取对数关系建立模型。 Lnsale的系数没有显著性(对于面粉零售价格放开之前的散点来说回归直线是一条水平线)。剔出Lnsale变量,得估计结果 PRICE = 2.140 + 1.1215 Lnsale(D – 7.7458(D (131.5) (23.9) (-23.0) R2 = 0.9054, PRICE = 2.140, D=0 PRICE = – 5.6058 + 1.1215 Lnsale, D=1 一条回归直线的斜率为零,一条回归直线的斜率为1.12。可决系数从不加虚拟变量模型的0.046增加到0.905(输出结果见下)。 本例也可以建立倒数模型: PRICE = 2.140 + 1.5141(D – 1565.9 (1/sale) (D (145.9) (32.1) (-27.0) R2 = 0.9231, PRICE = 2.140, D=0 PRICE = 3.6541 – 1565.9 (1/sale), D=1 (0 (0+(2 D = 1 D =0 1 5
本文档为【时间序列分析05虚拟变量】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_007125
暂无简介~
格式:doc
大小:800KB
软件:Word
页数:8
分类:金融/投资/证券
上传时间:2018-09-09
浏览量:173