第十四章 面板数据模型
在第五章,当我们
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
城镇居民的消费特征时,我们使用的是城镇居民消费和收入的时间序列数据,也就是说,我们的观测对象是城镇居民。当我们分析农村居民的消费特征时,我们可以使用农村居民的时间序列数据,此时,我们的观测对象是农村居民。但是,如果我们想要分析全体中国居民的消费特征呢?我们有两种选择:一是使用中国居民的时间序列数据进行分析,二是把城镇居民和农村居民这两个观测对象的时间序列数据合并为一个样本。第二种选择中所使用的是由多个观测对象的时间序列数据所组成的样本数据,通常被称为面板数据(Panel Data)。或者被称为综列数据,意即综合了多个时间序列的数据。当然,面板数据也可以看成多个横截面数据的综合。
在面板数据中,每一个观测对象,被称为一个个体(Individual)。例如城镇居民是一个观测个体,其消费记为
,农村居民是另一个观测个体,其消费记为
,这样,
(i=1,2)就组成了一个面板数据。同理,收入
(i=1,2)也是一个面板数据。
如果面板数据中各观测个体的观测区间和采样频率是相同的,我们就称其为平衡的面板数据,反之,则为非平衡的面板数据。例如,表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间和频率,所以,它是一个平衡的面板数据。基于面板数据所建立的计量经济学模型则被称为面板数据模型。
§14.1 面板数据模型
一、两个例子
1. 居民消费行为的面板数据分析
让我们重新回到居民消费的例子。在表5.1.1中,如果我们将城镇居民和农村居民的时间序列数据组成面板数据,以分析中国居民的消费特征。那么,此时模型(5.1.1)的凯恩斯消费函数就可以表述为:
(14.1.1)
(14.1.2)
其中:
和
分别表示第i个观测个体在第t期的消费和收入。i=1、2分别表示城镇居民和农村居民两个观测个体,t=1980、…、2008表示不同年度。
为经典误差项。
在(14.1.2)中,
随观测个体的变化而变化,但不随时间变化,它反映个体不随时间变化的差异性,被称为个体效应。
反映不随个体变化的时间上的差异性,被称为时间效应。在本例中,城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动,还有一部分差异是由城镇居民和农村居民的身份或地域差异决定的,它不随时间变化,这种差异性就由
和
来反映。同时,对所有居民,在收入不变的情况下,消费支出还可能随时间的变化而变化,这种变化的来源在于除随机扰动以外经济环境的一些系统性变化,如经济体制的变迁,这种变化是所有居民共同面对的,所导致的居民消费在时间上的差异性就由时间效应
、
、…、
来反映。实际上,模型(14.1.2)还假定城乡居民的边际消费倾向相同并且不随时间变化,尽管这一假定不一定成立,但作为熟悉面板数据模型的例子,我们还是暂且保留这一假定。
2. 农村居民收入分析
为了考察中国农民收入与农村要素投入结构之间的关系,同样地,我们既可以采用全国的时间序列总量数据进行分析,也可以采用各省市自治区的横截面数据进行分析。但是,如果能够综合各省市自治区的时间序列数据,也就是将各省市自治区作为观测的个体,由此形成面板数据,基于面板数据设定模型进行分析,一个显而易见的好处就是,我们将会有更多更具体的信息,估计和检验统计量都会有更大的自由度,从而获得更可靠的分析结论。
简单而言,由于农村剩余劳动力的存在,影响农村居民收入的要素配置因素可以分为以下几个方面:劳动的配置状态、资本拥有量、投资主体结构等。所以,基于省际面板数据,有研究者建立了如下的面板数据模型:
(14.1.3)
。
,
其中:
it为地区
在第
期的农村人均纯收入,各年份的现值均按本地区农村消费者价格指数折算为1995年不变价。
it为地区
在第
期乡村劳动力中非农产业从业人数与农林牧渔等传统产业从业人数之比。
it为地区
在第
期农村集体投资与个人投资的比率。
it为地区
在第
期农村人均资本存量的估算结果。
和
分别为个体效应和时间效应。
反映除劳动力分配比例、投资比例、资本存量的影响以外,各省人均纯收入受本省内在因素(如地理位置,经济发展基础等)所导致的不随时间变化的差异性。而时间效应反映除解释变量的影响以外,所有省份农村人均纯收入面对共同的经济环境的变化而形成的时间上的差异性。
显然,面板模型与我们以前所学的模型之间的区别,就在于存在个体效应和时间效应。简而言之,剔除了解释变量的影响以后,由个体内部不变的因素所导致的个体之间的差异性,就是个体效应;由所有个体所面对的共同因素所导致的时间上的变化,就是时间效应。
二、面板数据的特征及优势
基于前面两个例子,我们发现,面板数据既可以看作多个个体时间序列数据的合并,也可以看作多个时点横截面数据的合并。所以,如图14.1.1所示,面板数据的基本特征就是其数据结构的二维性。或者说,面板数据是一个数据平面,这也正是其被以“面板”命名的原因。
图14.1.1 变量X的面板数据结构
那么,有读者会说,既然我们可以基于全体居民的时间序列数据(如全体居民的人均收入和人均消费)来分析中国居民的消费行为,为什么要使用面板数据呢?实际上,使用面板数据会为我们的计量经济学分析带来很多的好处。
(1)扩大信息量,增加估计和检验统计量的自由度。
显然,与时间序列数据和横截面数据不同,面板数据是二维数据。它既包含同一观测个体随时间的变化,也包含同一时间不同个体之间的差异。这显著扩大了样本的信息量和样本容量,有助于提高参数估计的精度和检验结论的可靠性。
对模型(14.1.1)而言,如果我们基于居民的时间序列数据进行分析,样本容量为29。而基于城镇和农村的面板数据,样本容量则为58,如果基于省市区的面板数据,样本容量将更大,模型估计量和检验统计量的自由度显著增加。更重要的是,基于总量数据进行分析,无法反映两种居民之间的差异性,其数据信息对于两种居民都有显著的偏差。
(2)有助于提供动态分析的可靠性。
基于单个个体的时间序列数据进行动态分析,一方面会受到采样区间的限制,另一方面其研究结论也缺乏普适性。而基于面板数据,则可以在较短的采样区间内反映多个个体共同的动态变化特征,从而弱化样本区间的制约得到更为可靠的分析结论。
当我们在模型(14.1.1)中引入预期因素时,其回归模型被表述为:
。 (14.1.4)
如果使用时间序列数据,我们只能根据不同年度消费额的变化信息来估计消费的动态性质,而使用面板数据,我们有两种居民消费的变化信息可供利用。
(3)有助于反映经济结构、经济制度的渐进性变化。
对于所考察的经济体系而言,经济结构和经济制度的变化通常是渐进性的,我们很难找到一个量化的指标来反映这种渐进性变化。幸运的是,使用面板数据时,时间效应是被解释变量变化中不随个体变化而只随时间变化的部分,它反映了所有个体所面对的共同因素的影响。所以,时间效应是对经济结构和经济制度渐变效应的一个很好的度量指标。
(4)面板数据模型有助于反映经济体的结构性特征。
与总量数据相比,面板数据提供了更具微观层次的信息。对很多经济问题的分析而言,某些变量涉及不同观测个体之间的相互关系,例如资本和劳动在区域和产业之间的流动,技术的溢出,通胀的相互影响等。使用面板数据使得这些结构性变化信息的分析成为可能。
三、面板数据模型的混合估计
既然面板数据有诸多优势,那么,面板数据模型的分析与时间序列或横截面数据模型有什么不同呢?
在(14.1.1)和(14.1.3)中,如果假定个体效应和时间效应为0,那么,这个模型与我们前面所熟悉的单方程模型没有任何本质上的差异。所以,我们可以直接基于OLS对其进行估计。也就是说,我们没有考虑面板数据的结构特殊性,而直接把各时间序列或各横截面数据混合起来进行估计,这种估计方法我们称之为面板混合OLS估计。
对于模型(14.1.3),如果假定个体效应和时间效应为0,则模型可以表述为:
(14.1.5)
其中:
,
it为地区
在第
期的农村人均纯收入。其他变量的向量表述也是类似的。也就是说,我们将各个地区的数据堆积起来,看成是对同一个对象的观测数据。如果
为经典误差项,这一模型与第五章所讲的多元线性回归模型没有任何本质区别,其OLS估计量是线性无偏最优估计量。
基于中国28个省市自治区(不包括重庆、海南、西藏)1995~2005年的面板数据,其面板混合OLS估计的结果为:
(14.1.6)
t统计值 202.2730 17.2520 5.7464 -3.1736
p值 0.0000 0.0000 0.0000 0.0017
=0.8409
=0.8393。
但是,对面板数据而言,把个体效应和时间效应假定为0一般是不符合经济现实的,尤其是个体效应。我们很难想象各地区农村居民的消费特征不存在差异性。当我们考虑个体效应与时间效应时,我们会发现,面板数据在为我们带来更多信息和便利的同时,也带来了一些新的问题。
§14.2 固定效应与随机效应
面板数据模型的一般形式可以表述为:
(14.2.1)
。
。
其中:
为经典误差项。
,
,
,
。
我们已经知道,与时间序列数据或横截面数据的单方程模型相比,面板数据模型唯一的不同之处就是存在个体效应
和时间效应
。根据
和
与模型解释变量是否相关,面板数据的个体效应和时间效应又分为两种情形:固定效应(Fixed Effect)和随机效应(Random Effect)。
如果个体效应
与模型中的解释变量是相关的,我们就称这种个体效应是固定效应。反之,如果个体效应
与模型中的解释变量不相关,我们称之为随机效应。
同样地,如果时间效应
与模型中的解释变量是相关的,我们就称这种时间效应是固定效应。反之,则为随机效应。
例如:在模型(14.1.1)中,如果个体效应
与收入
相关,时间效应
与收入
不相关,那么,该模型的个体效应是固定效应,时间效应是随机效应。
如何理解固定效应和随机效应的含义呢?
我们知道,对不同的个体,解释变量的时间序列数据会有差异,它反映了各个个体自身的特征。当个体效应与解释变量相关时,此时的个体差异就受观测个体内在特征的影响。或者说,此时,个体的差异与个体的特征有内在的联系,所以,我们可以称这种效应是“固定”的。相反,如果个体效应与解释变量不相关,则说明个体效应的差异与观测个体的特征没有显著的内在联系,或者说,这种个体差异很可能是“随机”产生的。所以,我们可以称其为随机效应。
同样,时间效应的固定效应是指时间效应在时间上的差异与特定观测时间的经济背景有内在联系,而其随机效应则是指时间效应在时间上的差异是“随机”产生的。
§14.3 静态面板数据模型的估计
对于面板数据模型(14.2.1),我们首先考虑解释变量中不含被解释变量滞后项的情形,这样的模型我们称之为静态面板数据模型。
个体效应
和时间效应
是固定效应还是随机效应,模型所面对的计量经济学问题是不同的,其估计方法也不同。所以,我们需要分别介绍静态面板模型的固定效应估计方法和随机效应估计方法。
一、静态面板数据模型的固定效应估计
如果个体效应
和时间效应
满足固定效应假定,显然此时模型的随机误差项
与解释变量相关,它违背了高斯-马尔可夫定理的经典假定,根据我们在模型设定和联立方程中所学的知识,此时,模型中参数的OLS估计量是有偏的并且是非一致的。所以,固定效应面板数据模型的根本性问题是解释变量的内生性问题,其后果是OLS估计量不再是无偏的估计量。
既然OLS估计量是有偏的,我们就需要新的无偏估计量。对于固定效应的静态面板数据模型,其线性最优无偏的估计方法是最小二乘虚拟变量法(LSDV方法)。
1. LSDV估计方法
为了表述简便,我们以后不考虑时间效应,而只考虑个体效应。我们基于如下的一元静态面板数据模型来说明LSDV估计的基本思路:
(14.3.1)
。
。
(1)为每一个个体设定一个虚拟变量
,
。其中:
=1表示第i个观测个体,
=0表示不是第i个观测个体。
(2)在模型中引入虚拟变量,通过虚拟变量使个体效应显性化(或者称参数化),则模型(14.3.1)可表述为:
(14.3.2)
为了解决虚拟变量的完全多重共线性,我们可以直接估计模型:
(14.3.3)
此时,模型的误差项是经典误差项
,所以,我们可以直接对(14.3.3)进行OLS估计。在(14.3.3)中,估计量
的均值就是对
的估计,而离差则是对个体效应
的估计。即:
,
(14.3.4)
实际上,鉴于个体效应只是反映个体之间的差异性,其数值本身的大小是没有经济意义的,我们所关心的只是其数值的差异。
最后,让我们
总结
初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf
一下LSDV估计的基本思想:通过虚拟变量把误差项中与解释变量相关的个体效应(和时间效应)参数化,把个体效应(和时间效应)从误差项中分离出来,使分离后剩余的误差项与解释变量不相关,以便进行OLS估计。这正是其被称为最小二乘虚拟变量法的原因。
回到中国农民纯收入的例子。基于中国的省际面板数据,对模型(14.1.3)进行LSDV估计,为简便起见,我们在此仅考虑个体效应,其具体估计结果为(各省市区个体效应的估计值见表14.3.1):
(14.3.5)
t统计值 310.5582 35.0807 2.1178 0.6352
p值 0.0000 0.0000 0.0351 0.5258
表14.3.1 个体效应
的估计结果
地 区
个体效应
地 区
个体效应
地 区
个体效应
地 区
个体效应
北 京
-0.1652
黑龙江
0.1699
山 东
-0.0614
贵 州
0.0457
天 津
-0.1154
上 海
-0.0700
河 南
-0.0325
云 南
-0.0892
河 北
-0.0572
江 苏
0.0546
湖 北
0.0955
陕 西
-0.3129
山 西
-0.0177
浙 江
0.2140
湖 南
0.0740
甘 肃
-0.1588
内蒙古
-0.0150
安 徽
0.0537
广 东
0.3291
青 海
-0.1545
辽 宁
0.0218
福 建
0.3129
广 西
0.2091
宁 夏
-0.1481
吉 林
0.0689
江 西
0.1703
四 川
-0.0712
新 疆
-0.3504
显然,LSDV估计结果(14.3.5)不同于混合OLS估计结果(14.1.6),尤其是
系数的估计结果由显著的负值变为不显著的正值。估计结果的显著不同本在我们的意料之中,因为混合OLS估计的实际上是受约束的模型,即
约束下的模型。
细心的读者可能已经注意到,在(14.3.5)的估计结果中,我们没有报告模型的判定系数
。原因在于,对于考虑了个体效应(和时间效应)的面板数据模型而言,
不能反映解释变量对被解释变量变化的解释能力。因为,此时的模型包含了个体效应(和时间效应)对被解释变量变化的解释,其判定系数也包含了个体效应(和时间效应)的贡献,而不只是解释变量的贡献。
2. LSDV估计方法的直观含义
根据我们在第五章中对多元回归方程估计思想的解释,对模型(14.3.3),我们还有一种等价的估计方法。这种等价方法的步骤是:
(1)分别估计方程:
(14.3.6)
(14.3.7)
得到残差
和
。
(2)估计方程:
(14.3.8)
此时,基于(14.3.8)对
的估计与(14.3.3)的LSDV估计是等价的。
我们注意到,在步骤(1)中,对每一个个体i而言,只有
,其他虚拟变量都等于0,既
。以i=1为例,回归方程(14.3.6)可以写成:
该方程的残差就是被解释变量的离差。所以,
,它是在第1个个体内部求变量Y的离差。同样的,
是在第1个个体内部求变量X的离差。由此,我们发现,(14.3.8)实际上是变量Y的个体内离差对变量X的个体内离差进行回归。
所以,LSDV估计方法的直观含义是,将被解释变量和解释变量在个体内取离差,以被解释变量的个体内离差对解释变量的个体内离差进行回归,并进行OLS估计。
在分析农民纯收入的例子,如果我们将所有变量
、
、
、
的样本数据都转换为省内离差的形式,那么,我们对模型进行OLS估计,其斜率系数的估计结果与(14.3.5)的结果是相同的。
二、静态面板数据模型的随机效应估计
如果个体效应
和时间效应
满足随机效应假定,显然,此时模型的随机误差项
与解释变量不相关,此时模型中参数的OLS估计量仍是无偏的。
但是,由于个体效应
的存在,同一观测个体的误差项都包含不随时间变化的
,从而导致同一时间序列样本数据内部存在自相关。同样地,如果考虑到时间效应
,同一横截面的误差项都包含不随个体变化的
,从而导致同一横截面样本数据存在自相关。我们知道,此时尽管OLS估计量是无偏的,但却不是最优的,OLS估计量有较大的方差。所以,随机效应面板数据模型的本质问题是误差项的自相关,其后果是OLS估计量有较大的方差。
既然随机效应问题的本质是自相关,在自相关一章中,我们已经知道,修正自相关的影响需要采用GLS估计。所以,对于随机效应的静态面板数据模型,其线性无偏最优的估计方法是广义最小二乘法(GLS)。
在此,需要特别说明的是,随机效应面板数据模型的自相关与我们在第9章所讨论的AR形式的自相关有所不同。AR形式的自相关会随着时间间隔的增大而衰减,而随机效应静态面板模型的自相关不随时间间隔的变化而变化。所以,第9章中所介绍的基于广义差分模型的GLS估计方法对随机效应面板模型是不适用的。鉴于随机效应面板模型的GLS估计方法要相对复杂一些,我们在此并不介绍该方法的基本思想。不过,各种计量经济学分析软件(如EVIEWS、STATA等)都会提供随机效应静态面板模型的GLS估计程序。
再次回到中国农民纯收入的例子。基于中国的省际面板数据,在仅考虑个体效应的情况下,我们对模型(14.1.3)进行GLS估计,其具体估计结果为:
(14.3.9)
t统计值 202.1297 35.3193 2.4289 0.4921
p值 0.0000 0.0000 0.0157 0.6230
就本例而言,尽管(14.3.9)和(14.3.5)的估计结果比较接近,但还是有一点差异。
看到这里,可能有同学会说,既然个体效应和时间效应的存在会导致自相关,那么,固定效应面板模型也应该有自相关,为什么在估计时没有考虑自相关问题呢?原因很简单,在静态固定效应模型的估计中,我们已经通过虚拟变量把个体效应(和时间效应)从误差项中分离出来了。也就是说,我们在处理内生性问题的同时把自相关问题也解决了。
既然固定效应模型应该使用LSDV估计,而随机效应模型应该采取GLS估计,那么,当我们面对一个面板数据模型时,到底是用LSDV方法呢?还是选用GLS方法呢?一方面,我们可以基于固定效应和随机效应的含义,结合回归模型所要研究的经济问题,从问题的经济背景来进行判定。另一方面,我们可以根据样本数据,通过具体的检验统计量来进行检验。
三、豪斯曼检验
要想固定效应和随机效应作出判定,我们首先要明确两种估计量在不同情形下的性质。
如果模型中的个体效应或时间效应是固定效应,那么,LSDV估计量是无偏的估计量,而GLS估计量则是有偏的。
反之,如果模型中是随机效应,那么,LSDV估计量和GLS估计量都是无偏的,但LSDV估计量有较大的方差。
鉴于两种估计量的上述特征,我们发现,如果是随机效应模型,LSDV估计量和GLS估计量的估计结果就比较接近,反之,如果是固定效应模型,两种估计量的结果就有较大的差异。豪斯曼检验正是基于这种思想来检验随机效应和固定效应的。
豪斯曼检验的待检验假设为:
原假设(H0): 随机效应
备选假设(HA): 固定效应
其检验统计量为:
(14.3.10)
其中:
为回归系数的LSDV估计向量,
为回归系数GLS估计向量,
为LSDV估计系数的协方差矩阵估计量,
为GLS估计系数的协方差矩阵估计量。
在原假设(随机效应)为真时,豪斯曼检验统计量服从
分布。即:
(14.3.11)
自由度K为模型中解释变量(不包括截距项)的个数。
还是回到中国农民纯收入的例子。在仅考虑个体效应的情况下,我们对模型(14.1.3)进行豪斯曼检验,检验结果为:
H=4.1777 p值=0.2429。
显然,根据检验结果,我们无法拒绝随机效应的原假设。所以,从豪斯曼检验结果来看,中国农村居民收入模型中的个体效应很可能是随机效应。
§14.4 动态面板数据模型简介
如果面板数据模型的解释变量中包含被解释变量的滞后项,我们则称其为动态面板模型。仅包含被解释变量一阶滞后时,动态面板模型的一般表述形式为:
。 (14.4.1)
随着滞后被解释变量作为解释变量出现在模型中,由于个体效应的存在,模型中解释变量
将无法满足严格外生性的条件,从而导致LSDV估计和GLS估计都是有偏的。在§14.1的消费函数例子中,考虑了预期因素的模型(14.1.4)就是一个典型的动态面板数据模型。
首先,鉴于动态面板数据模型特有的估计问题仅与个体效应有关,为了使表述简化清晰,在后面的分析中,我们仅考虑个体效应,而不再考虑时间效应,并且暂不考虑外生的解释变量和截距项。那么,模型(14.4.1)就被设定为:
(14.4.2)
其中:
为经典误差项。
,
。
一、动态面板数据模型的内生性问题
在动态面板数据模型中,无论个体效应是固定效应还是随机效应,固定效应的LSDV和随机效应的GLS估计都是有偏的并且非一致的
。其原因就在于,动态面板数据模型存在固有的内生性问题。
1. GLS估计的有偏和非一致性
对于GLS估计,模型(14.4.2)的内生性问题是显而易见的。因为解释变量
与误差项
都包含个体效应
。即使进行差分变换,
与
,都包含共同因素
,我们也还是无法消除解释变量的内生性问题。理解这一问题,需要注意
是
的构成部分。
2. LSDV估计的有偏和非一致性
对于LSDV估计,模型(14.4.2)可以表示为:
(14.4.3)
其中:
=1表示第i个观测个体,
=0表示不是第i个观测个体。它等价于模型:
(14.4.4)
其中,符号“*”表示对变量的样本数据在个体内取离差。即:
,
。
显然,
和
是相关的,二者都包含误差
,
在
中的权重是(1-1/T),在
中的权重是1/T。所以,LSDV估计方法也无法消除动态面板模型的内生性问题。
由于动态面板模型固有的内生性问题,一般而言,我们通常采用三种方法估计动态面板数据模型:广义矩方法(GMM)、偏误直接修正方法、变换的似然估计方法。目前应用最多的估计方法是GMM方法。
二、动态面板模型的广义矩估计方法(GMM)
对于一阶自回归的动态面板数据模型(14.4.2):
(14.4.2)
其中:
为经典误差项。
,
。我们已经知道,动态面板模型的
和
是相关的,而且LS估计(无论是LSDV还是GLS)都是有偏并且非一致的。如果要想得到
的一致估计量,我们需要为
寻找适当的工具变量。
根据工具变量的选择的两个条件,我们要找的工具变量必须与
不相关,而与
相关。基于给定的样本信息,我们所能够找到的与
高度相关的变量只有
的滞后项。但是,由于个体效应的存在,
的滞后项即
、
、…、
也与
相关,它们不能作为工具变量使用。
为了能够找到适当的工具变量,我们对模型(14.4.2)取一阶差分:
(14.4.5)
因为
已经剔除了个体效应
,同时,对于
和
,
、
、…、
都是前定变量,所以,
、
、…、
都与
不相关,都可以作为模型(14.4.5)中
的工具变量。
如果我们只选择
作为
的工具变量,由于
与
不相关,它们之间存在正交的约束条件:
, (14.4.6)
基于一个给定的样本,我们通过求解
, (14.4.7)
就可以得到
的估计量
。这就是我们前面所学过的工具变量估计量(IV估计量)。
我们知道,工具变量不但要求与模型的误差项不相关,而且,要尽可能地反映原内生解释变量的信息。显然,
很难反映
太多的信息,IV估计量会有较大的估计方差。所以,我们通常会选择
、
、…、
作为模型(14.4.5)中
的工具变量。
我们把
的工具变量集记为向量
,由前面的分析,它们与
不相关,即满足如下的正交条件:
=0。 (14.4.8)
其中,
被称为总体矩,它是基于参数
的真实值而定义的,所以,为表述方便,我们可以将其记为
。(14.4.8)的约束条件被称为总体矩条件,由总体矩条件,我们可以得到
的广义矩(GMM)估计量。这样的GMM估计量有时也被称为差分GMM估计量,因为我们首先对模型进行了一阶差分变换。在此,我们简要地介绍GMM估计的基本思想。
先回头看一下工具变量估计量,基于(14.4.7)这样一个约束方程估计一个参数
,所以,我们可以通过方程(14.4.7)的求解计算出估计值
。
但是,当我们为解释变量
选取了多个工具变量时,(14.4.8)所表示的是多个约束方程,在此,我们无需具体地讨论(14.4.8)的约束形式,但至少我们已经注意到
是一个向量。等式右手边的0不是标量而是0向量。
因为(14.4.8)中的总体矩是期望,那么给定一个样本,这些总体矩所对应的样本矩应该是样本均值,即:
(14.4.9)
其中,
。注意,该定义式中的
是一个列向量,在这里,我们再次提醒,
是所有样本矩组成的列向量。在计算每一个样本矩时,由于工具变量是动态滞后项,与
作乘积运算时,工具变量会缺少部分样本数据,例如,
作为工具变量,它只有一个观测值,那么,缺少的观测值都以0值补齐。
根据(14.4.8)对总体矩的约束条件,我们应该寻找一个估计值
,使样本矩向量
等于0向量。即:
=0 (14.4.10)
那么,基于(14.4.10)对参数
进行估计,实际上是在用多个方程求解一个参数估计值
,这样的情况被称为过度识别。
由于过度识别,我们面临的问题是:因为(14.4.10)是用多个约束方程求解一个未知参数
,我们不可能用一个估计值
保证(14.4.10)中所有的样本矩都等于0。我们只能选择一个
,使所有样本矩尽可能地接近0。因此,我们的估计思想是,基于一个样本,寻找一个估计值
,使所有样本矩尽可能接近0,也就是说,我们要使样本矩的平方和最小。
具体而言,GMM估计的基本思想就是:最小化所有样本矩的平方和,即:
(14.4.11)
其中:函数G被称为GMM目标函数。W是一个对称、正定的加权矩阵。所以,GMM目标函数实际上是所有样本矩的加权平方和。
是否引入加权矩阵W并不影响GMM估计量的一致性。但会影响到有限样本下的估计精度。其最优的选择是使用矩条件的协方差逆矩阵
的一致估计量。显然,引入这样的加权矩阵可以修正样本矩之间相关性和异方差的影响。
简而言之,GMM估计量就是基于样本矩的加权平方和最小化而得到的估计量。
三、工具变量的选择及其有效性的检验
1. 关于工具变量选择的两点说明
(1)在为动态面板模型的GMM估计选择工具变量时,我们需要在估计量的偏误和方差之间进行权衡。随着矩条件或者说工具变量个数的增多,估计量的方差减小而偏误增大,反之,方差增大而偏误减小,二者之间存在此消彼涨的权衡关系。所以,在GMM估计的实际应用中,我们通常会选择
、…、
作为
的工具变量,
。也就是说,我们可以只选取相邻较近的滞后变量作为工具变量,而不再用更早期的那些滞后项。
(2)另一个需要说明的问题是,如果模型中包含了外生解释变量,例如
,那么我们所要分析的模型为:
(14.4.12)
其差分形式为:
(14.4.13)
此时,GMM工具变量如何选择呢?
的工具变量选择如前所述,外生变量
、
显然都可以作为
的工具变量。
2. 工具变量有效性检验
当我们为一个解释变量选择了多个工具变量时,那么工具变量的个数就会超过待估参数的个数,也就是说矩约束条件的个数超过了待估参数的个数,导致模型的过度识别。那么,过度识别的矩约束条件是否是有效的呢?也就是说,这些工具变量是否与误差项不相关,从而是否保证矩约束条件(14.4.8)成立呢?对此,我们可以用J检验进行判定。
在原假设——“过度识别的矩条件是有效的”成立的情况下,J检验统计量实际上就是GMM目标函数值乘以矩条件的个数(也是工具变量个数),其分布为
分布,即
, (14.4.14)
其中:m为矩条件的个数,k为待估计参数的个数。W为
的加权矩阵,
为根据参数向量估计值
得到的样本矩。对模型(14.4.12)而言,
。
当J统计值大于给定显著性水平下的临界值时,我们就拒绝“过度识别的矩条件有效”的原假设。
回到农村居民收入的例子,考虑到一个地区农村居民收入会表现出一定的动态惯性特征,我们有必要在模型(14.1.2)中引入被解释变量的滞后项,即:
(14.4.15)
其差分GMM估计的具体结果为:
(14.4.16)
t值 24.6656 13.9010 12.2935 2.0219
p值 0.0000 0.00000 0.0000 0.0443
就这一估计结果来看,在中国农村居民的收入分析中,动态影响是显著的。显然,无论在理论上还是就统计推断而言,在模型(14.1.2)中引入动态效应的分析都是恰当的。而且,动态效应的估计结果与静态模型有显著差异,尤其是变量
的系数估计值变为了显著的正值。
那么,本模型过度识别的矩约束条件是否是有效的呢?在本例中,解释变量的工具变量集为(
、
、…、
,
,
,
),工具变量矩阵的秩(全部工具变量个数)为28。因为基于一阶差分进行估计,所以没有估计截距项和个体效应的值,待估计参数个数为4。如果过度识别的矩约束条件是有效的,那么,模型的J检验统计量应该服从自由度为28-4=24的
分布。
根据式(14.4.14)计算的J检验统计值为:J=25.2211,根据
分布计算的p值为0.3938。显然,我们不能拒绝“过度识别的据约束条件有效”的原假设。也就是说,基于统计推断,我们可以认为工具变量与误差项不相关,或者说所选择的工具变量是有效的。
四、例子:新凯恩斯混合Phillips曲线的估计
让我们重新回到第四章一开始所介绍的新凯恩斯混合Phillips曲线的例子。基于面板数据,新凯恩斯混合Phillips曲线的回归方程可以表述为:
(14.4.17)
其中:对第i个经济个体,
表示第
期的通货膨胀率,
是第
期对
期的通胀率预期。
是厂商真实边际成本相对于其最优状态的偏离程度,目前文献通常选取劳动份额指标作为真实边际成本的替代变量。
在此,我们使用1992~2007年中国大陆29个省市区(不包括海南、重庆)的统计数据对模型(14.4.17)进行估计。其中:基于CPI计算通货膨胀率,并使用第
的实际通胀率作为第
期的通胀率理性预期
。由于中国经济具有非常明显的二元经济结构特征,在模型中可以同时选择了第一产业和第二、三产业的劳动份额指标的自然对数(
和
)作为真实边际成本的反映指标。
基于差分GMM方法对模型(14.4.17)进行估计,具体估计结果为:
(14.4.18)
t值= 186.8387 109.6812 19.7960 12.8279
p值= 0.0000 0.0000 0.0000 0.0000
仅就这一估计结果而言,在中国通货膨胀的动态变化中,适应性预期和理性预期共存,二者的影响大致相当。经济的短期波动对通胀具有显著影响。
可能有的读者会问,为什么没有
的更高阶滞后项出现在方程中呢?事实上,我们确实可以将
乃至更高的滞后项引入回归方程,不过,对本样本而言,当在模型中引入
时,其系数估计值为负,所以,我们所需估计的模型应该只包含
。
根据估计结果,
和
的系数估计值分别为0.5562和0.5626,二者之和为1.1188。可能读者会认为:中国的新凯恩斯混合Phillips曲线可能满足凸组合假设,即
和
之和为1。但是,F检验统计量的值为322.0894,相对于分布F(1,373),其p值为0.0000,所以,F检验的结果是:拒绝其满足凸组合的原假设。
在本例中,解释变量的工具变量集为(
、
、…、
,
,
,
),工具变量矩阵的秩(全部工具变量个数)为29。因为基于一阶差分进行估计,没有估计截距项和个体效应的值,所以待估计参数个数为4。显然,模型存在过多的矩约束条件,即存在过度识别的问题。如果过度识别的约束是有效的,那么,模型的J检验统计量应该服从自由度为29-4=25的
分布。
根据参数估计结果得到的J检验统计值为:28.7345,对于
分布,其p值为0.2752,所以,我们不能拒绝“过度识别的据约束条件有效”的原假设。也就是说,基于统计推断,我们可以认为工具变量与误差项不相关,或者说所选择的工具变量是有效的。
本例对于中国新凯恩斯混合Phillips曲线的估计结果与相关文献的估计结果有显著差异,其原因在于,本例使用的是一个简化的基本模型。在实证分析中,我们还需要考虑流动性因素对通货膨胀的影响以及通货膨胀率在不同区域间的相互推动作用。
本章小结
1. 面板数据提供更多的信息,有助于增大估计和检验的自由度,有助于增强动态分析的可靠性,有助于反映经济体的结构性特征和经济制度的渐进性变化。
2. 面板模型的混合OLS估计假定不存在个体效应和时间效应,是一种较为粗略的估计方法。
3. 如果个体效应
、时间效应
与模型中的解释变量是相关的,我们就称这种个体效应或时间效应是固定效应。反之,则为随机效应。
4. 固定效应静态面板数据模型的本质问题是解释变量的内生性问题,其后果是OLS估计量不再是无偏的估计量,其最优无偏估计量是LSDV估计量。
5. 随机效应面板数据模型的本质问题是误差项的自相关问题,其后果是OLS估计量虽是无偏的,但有较大的方差。其最优无偏估计量是GLS估计量。
6. 豪斯曼检验以随机效应为原假设,基于LSDV估计量和GLS估计量之间是否存在显著的差异,来检验模型是固定效应还是随机效应。
7. 动态面板数据模型具有固有的内生性问题,固定效应的LSDV和随机效应的GLS估计都是有偏的并且非一致的。
8. GMM估计的基本思想就是:使样本矩的加权平方和最小化。GMM工具变量的有效性可以基于J检验来判定。
思考题
14.1. 固定效应为什么会导致模型存在内生性问题?LSDV估计量是如何消除内生性的?
14.2. 随机效应为什么会导致自相关的问题?随机效应所导致的自相关与第九章所讲的AR(1)形式的自相关有什么样的区别?
14.3. 进行固定效应/随机效应检验的豪斯曼检验统计量服从
分布,所以,豪斯曼检验值应该只取正值。但是,在现实应用中,通常会出现豪斯曼检验值为负的情形。
(1)请基于豪斯曼检验统计量的公式(14.3.10),思考豪斯曼检验值为负值的原因。
(2)当豪斯曼检验值为负值时,豪斯曼检验是否有效,解释你的理由。
14.4. 如果所估计的动态面板模型为
。
请思考:在进行差分GMM估计时,
是否仍然可以作为工具变量?(提示:矩条件
是否仍然成立?)
练习题
14.1.基于表5.1.1的数据,将城镇居民和农村居民的时间序列数据合并为面板数据,并根据静态模型(14.1.1)和动态模型(14.1.4)分析中国居民消费行为的特征。
(1)用混合OLS对模型(14.1.1)进行估计,解释估计结果的经济含义。
(2)用固定效应估计模型(14.1.1),解释估计结果的经济含义。
(3)用随机效应估计模型(14.1.1),解释估计结果的经济含义。
(4)在(1)~(3)三个估计结果中,你选择哪一个,说明你的理由。
(5)用差分GMM估计模型(14.1.4),解释估计结果的经济含义。
14.2. 至此,我们分别通过第四章习题4.3、第五章习题5.4、本章方程(14.4.17),基于不同的模型或样本数据估计了中国的新凯恩斯Phillips曲线。
(1)比较三个部分的估计结果,说明估计结果的差异以及差异产生的原因。
(2)在三部分的估计结果中,你倾向于哪一个估计结果,说明你的理由。
(3)基于本章方程(14.4.18)的估计结果,说明中国通货膨胀的动态特征。
时间序列数据
横截面数据
� Cheng Hsiao, Analysis of Panel Data, 北京大学出版社,2005,pp70-85.
_1342700982.unknown
_1346307967.unknown
_1346308170.unknown
_1346308277.unknown
_1346308512.unknown
_1346309709.unknown
_1346329738.unknown
_1346329757.unknown
_1346329909.unknown
_1346329910.unknown
_1346329908.unknown
_1346329743.unknown
_1346311051.unknown
_1346311194.unknown
_1346310625.unknown
_1346308569.unknown
_1346308591.unknown
_1346308739.unknown
_1346309102.unknown
_1346308662.unknown
_1346308580.unknown
_1346308551.unknown
_1346308559.unknown
_1346308542.unknown
_1346308370.unknown
_1346308480.unknown
_1346308501.unknown
_1346308443.unknown
_1346308360.unknown
_1346308367.unknown
_1346308285.unknown
_1346308205.unknown
_1346308247.unknown
_1346308270.unknown
_1346308239.unknown
_1346308186.unknown
_1346308194.unknown
_1346308177.unknown
_1346308096.unknown
_1346308136.unknown
_1346308151.unknown
_1346308161.unknown
_1346308144.unknown
_1346308113.unknown
_1346308121.unknown
_1346308104.unknown
_1346308056.unknown
_1346308081.unknown
_1346308089.unknown
_1346308069.unknown
_1346308037.unknown
_1346308048.unknown
_1346308013.unknown
_1345384470.unknown
_1345707783.unknown
_1345966492.unknown
_1346307814.unknown
_1346307950.unknown
_1345968086.unknown
_1345968505.unknown
_1345708045.unknown
_1345789160.unknown
_1345790176.unknown
_1345806738.unknown
_1345790129.unknown
_1345709073.unknown
_1345712651.unknown
_1345707889.unknown
_1345448630.unknown
_1345707398.unknown
_1345707411.unknown
_1345448688.unknown
_1345448719.unknown
_1345448660.unknown
_1345448423.unknown
_1345448560.unknown
_1345448351.unknown
_1345448400.unknown
_1342701998.unknown
_1342703130.unknown
_1345384340.unknown
_1345384382.unknown
_1342703163.unknown
_1345384302.unknown
_1342703183.unknown
_1342703151.unknown
_1342702213.unknown
_1342702330.unknown
_1342702082.unknown
_1342701731.unknown
_1342701786.unknown
_1342701927.unknown
_1342701751.unknown
_1342701654.unknown
_1342701670.unknown
_1342701024.unknown
_1326375302.unknown
_1342523999.unknown
_1342526797.unknown
_1342529838.unknown
_1342541725.unknown
_1342542161.unknown
_1342542927.unknown
_1342542934.unknown
_1342542867.unknown
_1342541937.unknown
_1342538497.unknown
_1342541285.unknown
_1342528940.unknown
_1342529832.unknown
_1342527207.unknown
_1342528832.unknown
_1342527104.unknown
_1342525502.unknown
_1342526785.unknown
_1342526791.unknown
_1342526778.unknown
_1342525438.unknown
_1342525485.unknown
_1342525230.unknown
_1328701107.unknown
_1342522144.unknown
_1342523749.unknown
_1342523772.unknown
_1342522173.unknown
_1342523570.unknown
_1342521522.unknown
_1342522127.unknown
_1342521488.unknown
_1333260033.unknown
_1328104118.unknown
_1328336525.unknown
_1328342850.unknown
_1328343512.unknown
_1328701083.unknown
_1328343594.unknown
_1328343503.unknown
_1328336737.unknown
_1328336481.unknown
_1328336495.unknown
_1328336445.unknown
_1326376164.unknown
_1328102814.unknown
_13281034