1
实证会计分析统计方法
谭洪涛
2007.10.16
2
本讲主要目的
一、常见计量软件
二、常用实证分析方法
3
常见计量软件
z SAS
z SPSS
z Matlab
z EViews
4
SAS
z SAS是美国SAS软件研究所研制的一套大型集成应用软件系统,
具有完备的数据存取、数据管理、数据分析和数据展现功能。
z 特点:强大的数据分析能力,数据处理和统计分析领域,被誉为
国际上的
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
软件和最权威的优秀统计软件包,
z 广泛应用于政府行政管理、科研、教育、生产和金融等不同领
域,发挥着重要的作用。
z SAS系统中提供的主要分析功能包括统计分析、经济计量分析、
时间序列分析、决策分析、财务分析和全面质量管理工具等等。
z 详细内容请登陆:
http://www.sas.com/offices/asiapacific/china/查询。
5
SPSS(Statistical Package for the
Social Science)
z 社会科学统计软件包是世界是著名的统计分析软件之
一。
z 20世纪60年代末,
z 特点,微机化,界面友好
z SPSS的自动统计绘图、数据的深入分析、使用方便、
功能齐全等方面给予了高度的评价与称赞。
z 详细内容请登陆:http://www.spss.com查询。
6
Matlab
z 由美国Mathworks公司推出的用于数值计算和图形处
理的科学计算系统,
z 特定:程序设计、数值计算、图形绘制、输入输出、
文件管理等各项操作。
z 最直观,最简洁的程序开发环境,语言简洁紧凑,使
用方便灵活,库函数与运算符极其丰富,另外具有强
大的图形功能。
z 在国际学术界,Matlab已经被确认为准确、可靠的科
学计算标准软件,许多国际一流学术刊物上,都可以
看到MATLAB的应用。
z 详细内容请登陆:http://www.mathworks.com查询。
7
EViews
z 美国GMS公司1981年发行第1版的Micro TSP的
Windows版本,
z 通常称为计量经济学软件包。
z EViews是Econometrics Views的缩写,
z 它的本意是对社会经济关系与经济活动的数量规律,
采用计量经济学方法与技术进行“观察”。
z 使用 EViews软件包可以对时间序列和非时间序列的
数据进行分析,建立序列(变量)间的统计关系式,
并用该关系式进行预测、模拟等等。详细内容请登陆:
http://www.eviews.com/查询
8
常用实证分析方法
z 一、统计描述
z 二、均值分析与T检验
z 三、相关分析
z 四、回归分析
z 五、非参数检验
z 六、聚类分析
z 七、主成分分析
z 八、时间序列的平稳性检验――单位根检验
z 九 、 葛 兰 杰 因 果 检 验 (Granger 因 果 检 验 )
Eviews实现
9
一、统计描述
z 1.1.频数分布表分析( Frequencies)
z 1.2.统计描述分析过程(Descriptives)
10
1.2.统计描述分析过程(Descriptives)
z Descriptives过程是连续资料统计描述应用最
多的一个过程,他可对变量进行描述性统计分
析,计算并列出一系列相应的统计指标。
11
二、均值分析与T检验
z T检验是检验差异性显著性
z 差异显著性的检验是样本均值间的比较,
z T检验也可以称为一种均值比较分析。
– 单样本T检验、
– 独立样本T检验、
– 配对样本T检验。
12
2.1.独立样本T检验(One-Samples T
Test)过程
z 用于进行样本所在总体均数与已知总体均数的
比较,可以自行定义已知总体均数为任意值,
13
2.2.独立样本T检验(Independent-
Samples T Test)过程
z Independent-Samples T Test过程用于进行
两样本均数的比较,即常用的两样本t检验。
z 进行独立样本T检验要求被比较的两个样本彼
此独立,即没有配对关系。
z 要求样本均来自正态总体,而且均值对于检验
是有意义的描述统计量。
14
2.3.配对样本T检验(Paired-Samples T
Test)过程
z 用于进行配对设计的差值均数与总体均数0比
较的t检验,配对样本T检验与独立样本T检验
均使用T Test 过程,但两者调用该过程的菜
单不同,对数据文件结构的要求不同和使用的
命令语句也有区别。
z 在进行配对样本T检验的数据文件中一对数据
必须作为同一观测值的两个变量。
15
三、相关分析
z 实证研究中经常要遇到分析两个或多个变量间
关系的情况,
z 有时是希望了解某个变量对另一个变量的影响
强度:回归分析实现
z 有时则是要了解变量间联系的密切程度,相关
分析实现。
16
相关分析: Bivariate过程
z 此过程用于进行两个/多个变量间的参数/非参数相关
分析,如果是多个变量,则给出两两相关的分析结
果,
z Pearson相关:两个变量必须服从正态分布、
z 当当资料不服从双变量正态分布或总体分布未知,或
原始数据是用等级表示时,宜用Spearman等级相关
z Kendall相关。
z 假设检验,可选择进行单尾或双尾检验,给出相关系
数为0的概率。
17
Partial过程:偏相关检验
z 如果需要进行相关分析的两个变量其取值均
受到其他变量的影响,就可以利用偏相关分析
对其他变量进行控制,输出控制其他变量影响
后的相关系数;
z Partial过程就是专门进行偏相关分析的。
18
相关分析:Distances过程:
z 调用此过程可对同一变量内部各观察单位间的
数值或各个不同变量间进行距离相关分析,前
者可用于检测观测值的接近程度,后者则常用
于考察预测值对实际值的拟合优度。
z 该过程在实际应用中用的非常少。
19
四、回归分析
z 4.1.一元线性回归分析
z 4.1.1.线性回归分析概念
z 在数量分析中,我们经常会看到变量与变量之
间存在着一定的联系,而不只是前面所讨论的
单个变量的某些孤立的特性,如均值、方差的
特性等。
z 要了解的是变量之间是如何发生相互影响的,
这就是所谓回归分析。
20
4.2.多元线性回归模型-4.2.1.多元线性
回归模型介绍
z 一元线性回归分析所反映的是一个因变量与一
个自变量之间的关系。
z 在许多场合,仅仅考虑单个变量是不够的,还
需要就一个因变量与多个自变量的联系来进行
考察,才能获得比较满意的结果。这就产生了
测定多因素之间相关关系的问题。
21
4.3.逻辑回归分析-4.3.1.逻辑回归分析
概念
z 线性回归模型的一个局限性是要求因变量是定
量变量(定距变量、定比变量)而不能是定性
变量(定序变量、定类变量)。
z 但是在许多实际问题中,经常出现因变量是定
性变量(分类变量)的情况。
22
4.3.1.逻辑回归分析类型
z 判别分别(Discriminant analysis)、
z Probit分析、
z Logistic 回归分析
z 对数线性模型
23
Logistic回归分析
z 应用最多
z Logistic 回归分析根据因变量取值类别不同,
又可以分为
– Binary Logistic 回归分析
用于因变量只能取两个值1 和0(虚拟因变量),
– Multinomial Logistic 回归分析
因变量可以取多个值,在此只讨论Binary Logistic
回归,并简称Logistic 回归。
24
解释Logistic回归结果的一些常用的检验
统计量
1、-2 对数似然值(-2 log likelihood,-2LL)
z 似然(likelihood)即概率,特别是由自变量观
测值预测因变量观测值的概率。
z 当-2LL 的实际显著性水平大于给定的显著性
水平α时,因变量的变动中无法解释的部分是
不显著的,意味着回归方程的拟合程度越好。
25
解释Logistic回归结果的一些常用的检验
统计量
2、Cox 和Snell 的R2(Cox & Snell’s R-
Square)
Cox 和Snell 的R2试图在似然值基础上模仿线性
回归模型的R2解释Logistic 回归模型,但它
的最大值一般小于1,解释时有困难。
26
z 3、Nagelkerke的R2(Nagelkerke’s R-
Square)
z 为了对Cox 和Snell 的R2 进一步调整,使得
取值范围在0 和1 之间,Nagelkerke把Cox
和Snell 的R2 除以它的最大值。
27
4、Hosmer和Lemeshow的拟合优度检
验统计量(Hosmer and Lemeshow's
Goodness of Fit Test Statistic)
z 该拟合优度检验通常把样本数据根据预测概率分为十组,然后根
据观测频数和期望频数构造卡方统计量(即Hosmer和
Lemeshow的拟合优度检验统计量,简称H-L 拟合优度检验统
计量),最后根据自由度为8的卡方分布计算其p 值并对
Logistic 模型进行检验。
z 如果该p 值小于给定的显著性水平α(如α=0.05),则拒绝因
变量的观测值与模型预测值不存在差异的零假设,表明模型的预
测值与观测值存在显著差异。
z 如果p 值大于α,表明在可接受的水平上模型的估计拟合了数据
28
5、Wald统计量
z 同线性回归方程的参数显著性检验似,Wald
统计量用于判断一个变量是否应该包含在模型
中,Wald统计量近似服从于自由度等于参数
个数的卡方分布。判断变量是否显著类似于线
性回归。
29
五、非参数检验
z 非参数检验,是不依赖总体分布的统计推断方
法,是指在总体不服从正态分布且分布情况不
明时,用来检验数据资料是否来自同一个总体
假设的一类检验方法。
30
五、非参数检验
z Chi-square test:
z Binomial Test:
z Runs Test:
z One-Sample Kolmogorov-Smirnov Test:
z K-Sample Kolmogorov-Smirnov Test:
31
Chi-square test:
z 检验变量的几个取值所占百分比是否和我们
期望的比例没有统计学差异。比如我们在人群
中抽取了一个样本,可以用该方法来分析四种
血型所占的比例是否相同(都是25%),或者
是否符合我们所给出的一个比例(如分别为
10%、30%、40%和20%,)。
z 如通过掷六面体600次得出各面结果数据来建
议六面体是否没面都均匀
32
5.2.二项分布检验(Binomial Test)
z 5.2.1.二项分布检验步骤
z 实际问题中,有许多总体是由二项式组成的。
例如,是与非、男与女、正面与背面、正确与
错误等等。这种总体通常就称为二项总体。
33
Binomial Test:
z 用于检测所给的变量是否符合二项分布,变量
可以是两分类的,也可以使连续性变量,然后
按你给出的分界点一刀两断。
34
5.3.游程检验(Run Test)(略)
z 5.3.1.游程检验的原理与步骤
z 游程检验是一种利用游程的总个数来判断样本随机性的统计检验
方法。所谓游程,就是指在样本单位的抽取序列中,某一类型的
单位被另一类型单位在其前后隔开所形成的一个连续串。
z 判定:用于把样本数据分成两类(A 和B)的分割点可以是指定
的某个具体数值,也可以是均值、中位数、众数等。当Xi >分割
点时设为A 类,否则为B 类,其相应的单位数分别为N1和N2。
在大样本情况下,游程总数R的分布接近于正态分布。
z 根据输出结果,如果p值>α=0.05,所以接受零假设,即样本是
随机的。
35
Runs Test:
z 检验某变量的取值是否是围绕着某个数值随机
地上下波动,该数值可以是均数、中位数、众
数或人为制定。
z 如果该检验P值有统计学意义,则提示有其他
变量对该变量的取值有影响,或该变量存在自
相关。
36
One-Sample Kolmogorov-Smirnov Test
z 采用柯尔莫诺夫-斯米尔诺夫检验来分析变量
是否符合某种分布,可以检验的分布有正态分
布、均匀分布、Poission分布和指数分布。
z 如果p值>α,可以认为样本来自正态分布总
体。
37
5.5.两个独立样本检验
z 虽然有时样本所属的总体的分布类型往往是不明的,
但我们还是想知道在这种情况下两个独立样本是否来
自相同分布的总体,
– Mann-Whitney U检验、
– Kolmogorov-Smirnov Z 检验、
– Moses Extreme Reactions 检验
– Wald-Wolfowitz游程检验等就是用于处理此类问题的有效
方法。
– 其中Mann-Whitney U 检验是处理该问题中最常用的方法。
38
5.6.多个独立样本检验
z Kruskal-Wallis H 检验为单向方差分析,检验多个样
本在中位数上是否有差异;
z 中位数检验法用于检验多个样本是否来自具有相同中
位数的总体;
z Jonckheere-Terpstra检验法用于检验多个独立样本
是否来自相同总体,它适用于定量数据和定序分类数
据
z 当要检验的多个总体是定序变量时,Jonckheere-
Terpstra检验法比Kruskal-Wallis H 检验法更为有效。
39
5.6.多个独立样本检验
z 例:消费者协会采用1 到20 分来评价四家冷藏
食品公司的油炸鸡。他们相求出这些公司的鸡
在质量上是否有所不同。表5.5给出了四家公
司的评价。(α=0.05)
40
5.7.两个相关样本检验
z Wilcoxon检验:用于检验两个相关样本是否来自相
同的总体,但对总体分布形式没有限制
z Sign(符号)检验:通过计算两个样本的正负符号的
个数来检验两个样本是否来自相同总体;
z McNemar检验:用于两个相关二分变量的检验
z Marginal Homogeneity 检验:用于两个相关定序变
量的检验,是McNemar检验的扩展。
41
5.8.多个相关样本检验
z Friedman 检验:双向方差分析,考察多个相关样本
是否来自同一总体;
z Kendall W 检验:作为两相关样本McNemar检验的
多样本推广,特别适用于定性变量和二分字符变量;
z CochranQ检验
z Kendall W 检验:通过计算Kendall 和谐系数W,以
检验多个相关样本是否来自同一分布的总体。
z 例:某商店想了解顾客对几种款式不同的衬衣的喜爱
程度有无差别。
42
六、聚类分析
z 6.1.聚类分析概念和思想
z 在社会、经济及自然现象的研究中,存在着大量分类
研究的问题。例如,为了研究不同地区农民家庭不同
收入的分布规律,需要对不同地区、不同农民家庭、
不同收入进行分类;在制订农业发展区划时,需要根
据不同地区的气候条件、土壤类型、粮食产量水平、
灌溉水平、经济物质条件等对各地区进行分类;
z 聚类分析的基本思想是根据对象间的相关程度进行类
别的聚合。
43
具体聚类过程
z 聚类开始时,样本中的各个样品(或变量)自
成一类;通过计算样品(或变量)间的相似性
测度,把其中最相似的两个样品(或变量)进
行合并,合并后,类的数目就减少一个;重新
计算类与类之间的相似性测度,再选择其中最
相似的两类进行合并,..,这种计算、合并的
过程重复进行,直至所有的样品(或变量)归
为一类。
44
七、主成分分析
z 是一种通过降维来简化数据结构的方法:如何把多个变量(指标)
化为少数几个综合变量(综合指标),而这几个综合变量可以反
映原来多个变量的大部分信息。为了使这些综合变量所含的信息
互不重叠,应要求它们之间互不相关。
z 例如在评价企业的经营业绩时,要考虑许多指标,如利润、产值、
产品数量、产品质量、固定资产、流动资产等等。若要全部列
出,也许可以有几十个变量。因此用少量的几个综合变量代替原
来的许多变量是有实际意义的。由这几个综合变量出发还有可能
得到一个总的指标,按此总指标来排序、分类,问题就可能简单
多了。
z 例子
45
主成分分析举例结果
z 应该注意的是,上表输出结果中给出的是因子负荷,并没有给出
主成分。我们可以把因子负荷除以相应的相关矩阵特征值平方根。
例如,0.609/4.115=0.3002,-.7/1.239=-0.6289。
z 前两个主成分的累计贡献率已达76.49%,因此前两个主成分就
能够很好地概括这组数据。
z 由于第一主成分对所有变量都有近似相等的负荷,因此可认为是
对所有犯罪率的度量。第二主成分在变量X7 和X6 上有高的正负
荷,而在变量X1 和X4 上有高的负负荷;在X5 上存在小的正负
荷,而在X2 上存在小的负负荷。可以认为该主成分是用于度量
暴力犯罪在犯罪性质上占的比重。
46
八、葛兰杰因果检验(Granger 因果检验)
Eviews实现
z Granger 因果检验是用于检验两个变量之间
因果关系的一种常用方法。
z 在进行Granger 因果检验前,必须首先对,进
行ADF 检验,如果不是平稳序列,经过1 次
或者多次差分使之平稳化,然后对两个平稳化
后的序列进行Granger 检验。
47
八、时间序列的平稳性检验――单位根检
验(略)
z 在研究经济问题时,许多检验和估计理论如
ARMA估计理论以及Granger 因果检验等都
是基于平稳时间序列。如果一个序列的均值和
自协方差不依赖于时间,就说它是平稳的
z 8.1.ADF检验
z 8.2.Phillips-Perron(PP)检验
48
8.2.Phillips-Perron(PP)检验
z Phillips和Perron(1988)提出一种非参数方法来控
制序列中高阶序列相关。对AR(1)的PP检验为:
z
z ADF检验通过在方程右边添加滞后差分项来修正高阶
序列相关。PP检验参数的t统计量来修正AR(1)的序列
相关。这种修正方法是非参数的,因为我们使用在零
频率的谱估计。零频率对未知形式的异方差性和自相
关性较稳健。EViews使用Newey-West异方差自相关
一致估计
49
因果分析实例(Eviews实现)
z 为了分析我国固定资产投资与银行信贷之间的
因果关系,收集了1993-2003年的固定资产投
资(INVE)与银行贷款(LOAN)的数据
实证会计分析统计方法
本讲主要目的
常见计量软件
SAS
SPSS(Statistical Package for the Social Science)
Matlab
EViews
常用实证分析方法
一、统计描述
1.2.统计描述分析过程(Descriptives)
二、均值分析与T检验�
2.1.独立样本T检验(One-Samples T Test)过程
2.2.独立样本T检验(Independent-Samples T Test)过程
2.3.配对样本T检验(Paired-Samples T Test)过程
三、相关分析
相关分析: Bivariate过程
Partial过程:偏相关检验
相关分析:Distances过程:
四、回归分析�
4.2.多元线性回归模型-4.2.1.多元线性回归模型介绍
4.3.逻辑回归分析-4.3.1.逻辑回归分析概念
4.3.1.逻辑回归分析类型
Logistic回归分析
解释Logistic回归结果的一些常用的检验统计量
解释Logistic回归结果的一些常用的检验统计量
4、Hosmer 和Lemeshow 的拟合优度检验统计量(Hosmer and Lemeshow's Goodness of Fit Test Statistic)
5、Wald 统计量�
五、非参数检验�
五、非参数检验
Chi-square test:
5.2.二项分布检验(Binomial Test)�
Binomial Test:
5.3.游程检验(Run Test)(略)
Runs Test:
One-Sample Kolmogorov-Smirnov Test
5.5.两个独立样本检验
5.6.多个独立样本检验
5.6.多个独立样本检验
5.7.两个相关样本检验�
5.8.多个相关样本检验�
六、聚类分析
具体聚类过程
七、主成分分析�
主成分分析举例结果
八、葛兰杰因果检验(Granger 因果检验)�Eviews 实现
八、时间序列的平稳性检验――单位根检验(略)
8.2.Phillips-Perron(PP)检验�
因果分析实例(Eviews实现)