首页 计量经济学概论课件

计量经济学概论课件

举报
开通vip

计量经济学概论课件Econometrics计量经济学第一章计量经济学概论§1.1计量经济学§1.2建立计量经济模型的步骤和要点§1.3计量经济学模型的应用§1.1计量经济学一、计量经济学的定义与发展计量经济学是以经济理论为指导的,以数学、统计学为方法的,以事实为依据的,以电脑为手段的从事经济活动或经济关系数量规律研究的,并以建立、检验和运用计量经济模型为核心的一门经济学学科。(利用经济理论、数学、统计推断等工具对经济现象进行分析的一门社会科学)英文“Econometrics”一词最早是由挪威经济学家R.Frich提出来的,将计量经济...

计量经济学概论课件
Econometrics计量经济学第一章计量经济学概论§1.1计量经济学§1.2建立计量经济模型的步骤和要点§1.3计量经济学模型的应用§1.1计量经济学一、计量经济学的定义与发展计量经济学是以经济理论为指导的,以数学、统计学为方法的,以事实为依据的,以电脑为手段的从事经济活动或经济关系数量规律研究的,并以建立、检验和运用计量经济模型为核心的一门经济学学科。(利用经济理论、数学、统计推断等工具对经济现象进行分析的一门社会科学)英文“Econometrics”一词最早是由挪威经济学家R.Frich提出来的,将计量经济学定义为经济理论、统计学和数学的三者结合。数理经济学计量经济学经济统计学数理统计学经济学统计学数学电脑这一必不可少的手段与工具自1969年设立诺贝尔经济学奖,首届获得者就是计量经济学的创始人弗里希和荷兰经济学家丁伯根,表彰他们开辟了用计量经济方法研究经济问题这一领域,之后,直接因为对计量经济学的发展作出贡献而获奖者达十余人,因为在研究中应用计量经济方法而获奖者占获奖总数的三分之二以上。目前,计量经济学在西方国家经济学科占据重要的地位,著名计量经济学家、诺贝尔经济奖获得者克莱因(Klaien)在《计量经济学教科书》序言中写道:“在大多数大学和学院中,计量经济学的讲授已成为经济学课表中最有权威的一部分。”Samuelson曾说:“二次世界大战以后的经济学是计量经济学的时代”二、计量经济学模型模型是对现实的描述和模拟;计量经济模型是由随机性的数学方程或方程组构成的,通过它们可以揭示现实经济生活中的数量关系。计量经济模型是计量经济学研究的核心。计量经济学方法及其应用,都是围绕建立、估计、检验和运用计量经济模型这一核心进行的。如果离开了模型建立的经济背景、方法本身的经济学解释、方法应用的经济对象,计量经济学模型将是一堆无用的数学符号。随机扰动项理论经济学和数理经济学一般假定经济变量之间存在确定性的规律,从而建立确定性的模型。计量经济模型与一般经济理论模型的主要区别就在于模型中添加随机扰动项或误差项,建立的是所谓的概率性模型。方程中列入随机扰动项的主要原因(1)观测误差(2)由于忽略了次要因素引起的误差(3)由于社会经济现象固有的不可重复性,即使相同条件下进行试验,也不可得出完全相同的结果,因而出现随机误差,即固有的随机性特性。这些误差越小,表明内生变量与外生变量的相关程度越高,亦即模型较好地描述各个经济变量之间的关系。§1.2建立计量模型的步骤和要点建立计量模型的基本步骤一、理论或假说的陈述二、样本数据收集三、建立数学模型四、建立统计或计量经济模型五、模型参数的估计六、模型的检验计量经济学模型成功三要素二、样本数据收集几种常用的样本数据时间序列数据截面数据合并数据(面板数据Paneldata)虚拟变量数据1、时间序列数据(TimeSeriesData)时间序列数据又俗称为纵向数据,按时间的先后排列的统计数据。例如,我国自改革开放的1978-2003年GNP数据。在西方经济学中称它为流量,在统计经济学上称它为时期数。时间序列的时间是变化的。常用的时间间隔有:年、季度、月、周(7日或5日)、日时间序列数据通常存在季节变动和序列相关——自相关(误差的协方差不等于0,即前期误差与后期误差之间存在相关)。2、截面数据(Cross-SectionData)截面数据又俗称横向数据,是一批发生在同一时间截面上的调查数据。研究某个时点上的变化情况。例如工业普查数据、人口普查数据等。在西方经济学中称它为存量,在统计经济学上称它为时点数。截面数据的时间是凝固的。截面数据中大多存在异方差,必须引起注意。采纳截面数据的注意事项样本点间的同质性(样本与母体的一致性),截面数据很难用于总量估计。截面数据一般存在误差项的异方差3、合并数据(PooledData)合并数据:既有时间序列数据又有横截面数据平行数据(PanelData):同一个横截面单位,在不同时期的调查数据。是时间序列数据与截面数据的合成体。例如,1978-1999年我国各省市城镇居民消费结构的调查资料。4、虚拟变量数据虚拟变量数据也称二进制数据,一般取1或0,一般用以表示定性变量,例如政策变量、条件变量等。用虚拟变量表示定性数据样本数据的质量完整性(不能有遗失数据,必要时,采用插值技术补上)准确性(准确真实且数据口径方面要符合建模要求)可比性(将范围口径和价格口径调整一致)一致性——同质性(样本与母体一致),用31个省市的数据作为全国总量模型的数据就违反了一致性举例:美国1980-1996年间城市劳动参与率(CLFPR)和城市失业率(CUNR)的数据年份CLFPR(%)CUNR(%)年份CLFPR(%)CUNR(%)198063.87.1198966.55.3198163.97.6199066.55.61982649.7199166.26.81983649.6199266.47.5198464.47.5199366.36.9198564.87.2199466.66.1198665.37.0199566.65.6198765.66.2199666.85.4198865.95.5理论模型举例——生产函数(1)确定模型所包含的变量模型应该包括那些变量?哪个是因变量(被解释变量)?哪个是自变量(解释变量)?哪个是内生变量?哪个是外生变量?被解释变量是由研究目的确定的,即因果关系中“果”解释变量是用以说明被解释变量的,即被解释变量的变动是由解释变量的变动引起的,是因果关系中“因”。解释变量包括:外生变量(外生经济变量、外生条件变量、外生政策变量)和滞后被解释变量,其中有些变量如外生政策变量、条件变量经常以虚拟变量的形式出现。选择解释变量的要求要求一需要正确把握所研究的经济现象中暗含的经济学理论和经济行为规律。这是正确选择变量的基础。要求二选择解释变量需要考虑数据的可得性要求三选择变量应考虑解释变量之间不相关注:从这里可以看出,建立模型的第一步就已经体现了计量经济学是经济理论、经济统计学和数学三者结合的思想。(2)确定模型的数学形式模型函数的数学形式,线性的?亦或是非线性的?选择模型数学形式的主要依据是经济行为理论。数理经济学中已对常用的生产函数、需求函数、消费函数、投资函数等模型的数学形式进行了广泛的研究,可以借鉴。将被解释变量和解释变量的散点图中样本点的分布形式作为模型的数学形式。反复采用多种可能函数形式对样本进行拟合,然后选择一种拟合较好的函数形式作为模型的数学形式。(3)拟定理论模型中待估计参数的理论期望值模型包括几个参数,符号如何?期望值的取值范围?参数一般都具有明确的经济含义,参数的具体数值只有在模型完成以后才能确定。但它们的取值范围,即理论期望值,可以根据它们的经济含义,在理论模型设计阶段拟定。可以用这些根据经济理论拟定的理论期望值,来检验模型估计的结果。生产函数中各参数的理论期望值四、建立统计或计量经济模型根据散点图像,可以建立CLFPR与CUNR的简单数学模型:CLFPR=B1+B2*CUNR考虑到所有其他影响劳动力参与率的因素,并假定其包含在随机变量u中,于是可以得到以下计量模型:CLFPR=B1+B2*CUNR+u五、模型参数的估计参数是模型中表示变量之间数量关系的常系数。它将各种变量连接在模型之中,具体说明解释变量对被解释变量的影响程度。在未经实际资料估计之前,参数是未知的。模型设定之后,依据可利用的数据资料,选择适当的估计方法,例如最小二乘进行估计。参数估计是一个纯技术过程,包括对模型进行识别(对联立方程而言)、估计方法的选择、软件的应用等。参数估计的意义参数估计为经济理论提供了实际经验的内容,并验证经济理论。如凯恩斯消费理论:“当人们收入增加时,他们倾向于消费,但其增长的程度不和收入增加的程度一样多”。设y表示消费,x表示收入,建立模型如下:y=b1+b2*x+e。若参数b2的估计值为0.8,它不仅说明了边际消费倾向的实际内容,同时也证实了凯恩斯消费理论关于b2介于0-1之间的假定。六、模型的检验参数估计以后,模型便已确定。但模型是否符合实际,能否解释实际经济过程,提交使用前还需要进行检验。模型必须通过四级检验:经济意义检验统计假设检验计量经济学检验模型预测检验1、经济意义检验经济意义检验主要检验各个参数估计量是否与经济理论和实际经验相符主要方法是将参数的估计值与设计理论模型时拟定的期望值进行比较;检验估计参数的符号、大小以及相互之间的关系,判断是否合理煤炭行业生产模型检验参数估计量的符号在该模型中,电力消耗量前的参数估计量为负,意味着电力消耗越多,煤炭产量越低,从经济行为上无法解释。模型不能通过检验煤炭企业生产函数模型(进一步检验参数估计量的大小)在该模型中,固定资产原值前的参数的经济意义是明确的,即固定资产原值的产出弹性;表示当固定资产原值增加1%时煤炭产量增加的百分数。根据产出弹性的概念,该参数估计量应该是0与1之间的一个数,模型中的参数估计量虽然符号正确,但是数值范围与理论期望值不符,不能通过检验。职工家庭日用品需求模型(检验参数之间的关系)在该模型中,人均收入和日用品类价格前的参数的经济意义是明确的,即是它们各自的需求弹性。该二参数估计量的符号是正确的,数值范围大体适当。但是根据经济意义,二参数估计量之和应该在1左右,因为当收入增长1%、价格增长1%时,人均购买日用品支出额也应该增长1%左右。显然该模型的参数估计量不能通过检验。2、统计假设检验由统计理论决定的,目的在于检验模型的统计学性质。利用统计推断的原理,对参数估计的可靠程度、观察数据的拟合程度进行检验。主要方法有拟合优度检验、变量和方程的显著性检验。3、计量经济学检验检验模型的计量经济学性质,即检验模型基本假设的满足程度、各种经济计量假设的合理性,以及模型总体结构预测能力的检验主要检验准则:序列相关检验、异方差检验和多重共线检验4、模型预测检验预测检验主要检验模型参数估计量的稳定性以及相对样本容量变化时的灵敏度,确定所建立的模型是否可以用于观察值以外的范围,即模型的所谓超样本性质。具体检验方法:(1)利用扩大了的样本重新估计参数,检验两次估计结果的差异显著性;(2)将所建立的模型用于样本以外某一时期的实际预测,预测值与实际值进行比较并检验差异显著性。七、计量经济学模型成功三要素理论、方法和数据,三者缺一不可理论——模型的灵魂和基础方法——建立模型的手段和工具数据——建立模型的原料——信息§1.3计量经济学模型的应用结构分析经济预测政策评价检验与发展经济理论经济计量模型主要用于分析经济结构,评价经济政策,仿真经济系统以及预测经济发展等几个方面。模型的应用过程也就是检验模型和理论的过程。如果预测误差小,表明模型精度高,质量好,对现实结实能力强,理论符合实际;反之,则要对模型以及对建摸所依据的经济理论进行修正。经济计量工作过程,是一个不断修改、信息反馈的过程。1.结构分析结构分析研究的是当一个变量或几个变量发生变化时会对其他变量以至经济系统产生什么影响。进行经济系统定量研究的主要任务就是结构分析。主要方法:弹性分析、乘数分析和比较静力学分析。弹性指某一变量的相对变化引起另一变量的相对变化的度量,即变量的变化率之比。例:其中α1则表示y对x的弹性则%Δy≈(100β1)Δx,其中β1表示y对x的半弹性。乘数是某一变量的绝对变化引起另一变量绝对变化的度量,即变量的变化量之比,也称倍数。2.经济预测计量经济模型是以模拟历史、从已经发生的经济活动中找出变化规律为主要技术手段。因此对于非稳定发展的经济过程;对于缺乏 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 行为理论的经济活动,计量经济模型显然无能为力。3.政策评价政策评价是指从多个政策中选择比较好的政策予以实施(决策);或者说是研究不同政策对经济目标所产生影响的差异。经济政策具有不可实验性;计量经济模型可以起到“经济政策实验室”的作用。计量经济学模型用于政策评价主要有:(1)工具——目标法(2)政策模拟(3)最优控制4.检验与发展经济理论计量经济学提供了一个检验经济理论的好方法。样本数据是已经发生的经济活动的客观再现;模型生成数据(经济活动遵循的规律)表示经济理论成立条件下理论的客观再现。(1)拟合的好,指导建立模型的经济理论成立,即检验理论。(2)拟合多个模型,其中拟合最好的模型所表现出来的数量关系,则是经济活动所遵循的经济规律,即上升为理论。计量经济学研究是一个动态过程模型通过上述各项检验之后,才能实际应用,检验不能通过,则需修整模型,再设定,再估计,再检验。计量经济学的组成与结构经济理论预测政策评价事实模型数据统计理论精练数据利用计量经济学技术和精练数据估计模型结构分析原料加工成品计量经济技术经济计量模型检验与发展理论基础流程图设计理论模型收集统计资料模型的参数估计,建立具体模型模型检验是否合符 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 ?征求决策者意见是否可用于决策?应用预测未来检验发展理论结构分析修改整理模型修改模型理论模型与数据收集阶段参数估计与模拟阶段政策分析与模型应用阶段理论研究或经验总结评价政策Econometrics计量经济学第二章基本统计概念的回顾主要内容§2.1随机试验§2.2随机变量§2.3总体的数字特征§2.4样本分布的数字特征§2.1随机试验随机试验:指至少有两个可能结果,但不确定哪一个结果会出现的过程总体:随机试验所有可能的集合称为总体(population)或样本空间例子:在一种双回合游戏中,O1表示两个回合全部获胜;O2表示第一个回合获胜,第二个回合失败;O3表示第一个回合失败,第二个回合获胜;O4表示两个回合全部失败。样本空间有4种结果组成:{O1,O2,O3,O4}样本点:样本空间(或总体)的每一元素,即每一种结果成为样本点§2.1随机试验随机试验的可能结果组成的集合称为事件,它是样本空间的一个子集如果两个事件不能同时发生,则两个事件称为是互斥的如果一个事件的发生与另一个事件的发生的可能性相同,则两个事件称为等可能性的。例如抛一枚硬币,正面朝上和正面朝下是等可能出现的§2.2随机变量一、概率分布引入一个随机变量来描述总体,随机变量是取值具有随机性的变量,按取值情况可以分为离散型和连续型两种类型。样本就是n个相互独立的与总体具有相同分布的随机变量x1,……,xn,即n元随机变量。总体与样本间的联系在于具有相同的分布§2.2随机变量1、概率(1)古典定义。如果随机试验可以得到n个互斥且等可能结果,而这些结果中有m个有利于事件A,则事件A发生的概率(probability)就是m/n.即P(A)=m/n=结果有利于A的个数/结果总个数(2)概率的频率定义。如果在n次试验(或n个观察值)中,m次有利于事件A,假定试验的次数n足够大(技术上讲是有限的),那么事件A的频率P(A)就等于m/n(即频率)。2概率分布性质(1)取值范围(2)若A,B,C,…为互斥事件,则有P(A+B+C+…)=P(A)+P(B)+P(C)+…对于任意事件A,B则有P(A+B)=P(A)+P(B)-P(AB)(3)若A,B,C,…为互斥事件,且为一完备事件组,则P(A+B+C+…)=P(A)+P(B)+P(C)+…=1(4)事件A,B,C,…称为相互独立的事件,如果有P(ABC…)=P(A)P(B)P(C)+…(5)条件概率P(A|B)=P(AB)/P(B)§2.2随机变量例2.1:国际贸易专业有200名学生,其中男生120人,女生80人,在这些学生中,40名男生和24名女生 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 选学计量经济学,若随机抽取一人,发现这个学生计划选学计量经济学。那么这个学生是男生的概率是多少?解:(40/200)/(64/200)=40/64=5/8§2.2随机变量3、离散型随机变量的概率分布随机变量X取各个值的概率称为X的概率分布。对一个离散型随机变量X可以给出如下的概率分布:P(X=xi)=pi对于随机变量X(无论连续还是离散)可以确定实值函数F(x),称为累积分布函数(cumulativedistributionfunction,CDF),定义如下F(x)=P(X≤x)例2.2:有4类随机变量:①某机场候机室中一天的游客数量为X;②某寻呼台一天内收到的寻呼次数为X;③某水文站观察到一天中长江的水位为X;④某立交桥一天经过的车辆数为X.其中哪个不是离散型随机变量?答:①、②、④是离散型随机变量;③不是离散型随机变量。例2.3:设一汽车在开往目的地的道路上需要经过四组信号灯,每组信号灯以1/2的概率允许或禁止车通过。以X表示汽车首次停下时,它已通过的信号灯的组数(设各组信号灯的工作是相互独立的),求X的分布律。例2.4:设的分布列为求的分布函数。4、连续型随机变量的分布函数及概率密度函数对于连续型随机变量,取任何特定数值的概率为0。设F(x)是随机变量X的分布函数,如果对任意实数x,存在非负函数f(x)≥0,使就称f(x)≥0为X的概率密度函数(PDF),且f(x)具有性质§2.2随机变量例2.6:如图,向面积为S的区域A内任意投掷一质点,设质点落在A内任意小区域内的概率与这个小区域的面积成正比。试球(X,Y)落在面接为a的小区域D内的概率。例2.7:设随机变量的密度函数为试求1)常数c;2)的分布函数; 3)。解:1)由密度函数的性质可知即于是密度函数为2)3)例2.8:设随机变量的密度函数为试求1)常数c;2)分布函数Fx);3)。解:1)由密度函数的性质于是2)当当于是3)5、多元随机变量的概率密度函数联合概率质量函数f(X,Y)=P(X=x,Y=y)。边缘概率质量函数f(X),f(Y)。条件概率质量函数f(X|Y)=P(X=x|Y=y)条件概率质量函数f(X|Y)=f(X,Y)/f(Y)独立随机变量如果f(X,Y)=f(X)f(Y),则称变量X和Y是统计独立的§2.2随机变量例2.9:同一品种的5个产品中,有2个正品,每次从中取1个检验质量,不放回地抽取,连续2次.记“Xk=0”表示第k次取到正品,而“Xk=1”为第k次取到次品(k=1,2).写出(X1,X2)的联合分布律和边缘分布.解:X1,X2可能取值均为0,1,按乘法 公式 小学单位换算公式大全免费下载公式下载行测公式大全下载excel公式下载逻辑回归公式下载 有0100.10.310.30.3故联合分布律为010.40.4+0.6+同理,010.40.60.40.6求边缘分布:因为0.6问随机变量X1,X2独立吗?不独立!0100.10.310.30.30100.10.310.30.30.40100.10.310.30.30.40100.10.310.30.3求例2.9的X1关于X2的条件分布P{X1=0|X2=1}=0.3/0.6=0.5,P{X1=1|X2=1}=0.50100.10.310.30.3由P{X1=0|X2=0}=0.1/0.4=0.25,P{X1=1|X2=0}=3/40.40.60.40.601X1|X2=00.250.7501X1|X2=10.50.5由6、随机变量函数设f(x)是定义在随机变量X的一切可能取值集合上的函数。如果对于X的每一个可能值x,都有另一个随机变量Y的取值y=f(x)与之相对应,则称Y为X的函数,记作Y=f(X)。常常遇到一些随机变量,它们的分布往往难于直接得到(例如滚珠体积的测量值等),但与它们有关系的另一个随机变量的分布却是容易知道的(如滚珠直径的测量值)。因此,就要研究两个随机变量之间的关系,然后通过它们之间的关系,由已知随机变量的分布求出与之有关的其它随机变量的分布。其间的关系通常用函数关系表示。§2.2随机变量例2.10:已知X的分布列,求X2=Y的分布列。解:当X=xi=0,±1,2; 时,Y=yi=xi2=0,1,4所以得Y的分布列如下:§2.3对总体的描述:随机变量的数字特征数学期望方差数学期望与方差的图示相关系数与协方差偏度和峰度一、数学期望(集中趋势的度量)1、离散型随机变量数学期望的定义假定有一个离散型随机变量X有n个不同的可能取值x1,x2,……,xn,而p1,p2,……,pn是X取这些值相应的概率,则这个随机变量X的数学期望定义如下:数学期望描述的是随机变量(总体)的一般水平2、连续型随机变量数学期望的定义若连续型随机变量X有分布密度函数f(x),而积分绝对收敛,则称为X的数学期望。数学期望是最容易发生的,因而是可以期待的。它反映数据集中的趋势。一、数学期望(集中趋势的度量)例2.11甲、乙两射手在一次射击中的得分(分别用X、Y表示)的分布率如下:试比较两射手的射击技术水平(得分越高代表射击水平越高),并计算如果二人各发一弹,他们得分和的估计值。解EX=10.4+20.1+30.5=2.1EY=10.1+20.6+30.3=2.2E(X+Y)=2.1+2.2=4.3因为EX=3)答案:E(X|X>=3)=11.5几个重要性质(1)一般地(2)(3)重期望律:例2.16:已知,求E(y)的值。二、方差:离散程度的度量1、随机变量方差的定义若X为连续型随机变量,则X的方差以下式给出随机变量的方差记作Var(x)。方差的算术平方根叫标准差。2、方差的性质(1)Var(c)=0(2)Var(c+x)=Var(x)(3)Var(cx)=c2Var(x)(4)x,y为相互独立的随机变量,则Var(x+y)=Var(x)+Var(y)=Var(x-y)(5)Var(a+bx)=b2Var(x)(6)a,b为常数,x,y为两个相互独立的随机变量,则Var(ax+by)=a2Var(x)+b2Var(y)(7)Var(x)=E(x2)-(E(x))2例2.17:计算本节例2.11中甲射手的方差甲、乙两射手在一次射击中的得分(分别用X、Y表示)的分布率如下:E(X)=2.1Var(X)=(-1.1)20.4+(-0.1)20.1+0.920.5=0.89例2.18(投资风险价值)现有A、B两个投资 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 ,如下表:试对A、B方案进行投资风险价值分析.(投资风险价值是反映投资者冒着风险进行某次投资所得到的报酬.投资风险越大,为补偿额外风险,通常其所要求获得的报酬也就越高.在实际工作中,测量风险通常用“标准差”,一般地,标准差越大说明投资风险就越大,投资风险价值通常也就越大)三、数学期望与方差的图示数学期望描述随机变量的集中程度,方差描述随机变量的离散程度。1方差同、期望变大2期望同、方差变小51055四、相关系数与协方差协方差和相关系数都是描述两个随机变量相互关联程度的参数或统计量。方差是度量一个随机变量变异程度的指标,而协方差则是度量两个随机变量协同变动的指标。要度量两个随机变量之间的关系,自然要考察两个变量同时变化——协同变化的情况,于是需要定义协方差。为了弥补协方差的不足——受计量单位和数量尺度的影响,进而定义了度量两个随机变量呈线性相关程度的指标——相关系数。1、协方差(1)定义:令随机变量X和Y的期望分别为E(x),E(y),其协方差为:cov(X,Y)=E[(X-E(x))(Y-E(y))]=E(XY)-E(X)E(Y)一般而言,两随机变量的协方差可正可负。若两变量同方向变动,则协方差为正,反之则为负。(2)协方差的性质(1)若随机变量X,Y相互独立,则其协方差为0。(2)cov(a+bX,c+dY)=bdcov(X,Y)(3)cov(X,X)=var(X)(3)相关变量的方差若随机变量不是独立的,对于X+Y或X-Y的方差为:Var(X+Y)=var(X)+var(Y)+2cov(X,Y)Var(X-Y)=var(X)+var(Y)-2cov(X,Y)(4)若E(y|x)=E(y),则Cov(x,y)=0证明:利用重期望律2、相关系数相关系数用表示,其计算公式为:从公式可看出两变量的相关系数等于它们的协方差与其各自的标准差之比。相关系数介于-1到1之间。五、偏度(skewness)与峰度(kurtosis)用于描述概率密度函数形状的数字特征。偏度(S)是对称性的度量;峰度(K)是概率密度函数高低或胖瘦的度量1、偏度(S)的计算对于正态分布,S=0;若偏度S的值为正,则其概率密度为正偏或右偏,分布函数有长的右尾;若S的值为负,则其概率密度为负偏或左偏,分布函数有长的左尾。2、峰度(K)的计算概率密度函数的峰度K小于3时,称为低峰态的(胖的或短尾的),峰度K大于3时,称为尖峰态的(瘦的或长尾的)。对于正态分布的峰度为3,称为常峰态的。五、偏度(skewness)与峰度(kurtosis)§2.4样本分布的数字特征一、样本平均数总体的数字特征——是一个固定不变的数,称为参数;样本的数字特征——是随抽样而变化的数,是一个随机变量,称为统计量。样本平均数的定义:对于样本x1,x2,…,xn,则样本平均数为样本平均数用来描述样本的平均水平(一般水平)。随机变量X代表某汽车销售商每天销售汽车的数量。若随机变量X服从某一概率密度函数。求每月前十天,该汽车销售商出售汽车的平均数量(即期望值)。假设该汽车销售商已从业十年,但在过去的十年里,没有时间细看每月前十天销售数量。若该销售商从过去的数据中随机抽取某月销售量,并记下该月前十天的汽车销售数量:9,11,11,14,13,9,8,9,14,12。这就是一个包括十个样本值的样本。如果该销售商把十个样本值相加求和再除以10(样本容量),即为样本均值。二、样本方差和标准差1、定义:对于样本x1,x2,…,xn,则称分别为样本方差和标准差。2、样本序列的正态性检验偏度:峰度:例2.20:一样本取值为3,4,4,5,4,样本方差是多少?三、样本协方差1、协方差的定义式若样本容量足够大,可用pij=1/n,那么2.协方差的缺陷(1)协方差是一个有单位的指标。例如,Y为身高(厘米),X为体重(千克),那么它们的协方差COV(Y,X)的单位为厘米.千克。所以不便于用作相互比较。(2)协方差受数据尺度的影响。例如,Y为身高(毫米),X为体重(克),那么它们的协方差COV(Y,X)的单位为毫米.克。同一组数据计算出来的协方差,(2)比(1)大了10倍。因此,也不便于用作相互比较。于是,需要引入一个度量两个随机变量之间线性关系的指标——相关系数,以克服单位与尺度的影响。四、样本相关系数1、相关系数的定义2.根据相关系数初步判定变量之间的关系正相关:Y为我国人均消费,X为我国人均国民收入,相关系数:0.98负相关Y与X的相关,系数:-0.92第三章一些重要的概率分布3.1正态分布3.2样本均值的抽样分布3.3χ2分布3.4t分布3.5F分布3.1正态分布(1)正态分布若连续型随机变量X的概率密度为则X服从正态分布,记为X~N(μ,σ2)。正态分布的数学期望和方差分别为μ和σ2。(2)正态分布的性质正态分布曲线以均值为中心,对称分布;正态分布的概率密度函数呈中间高、两边低。正态分布可由两个参数来描述正态分布曲线下位于一个标准差的面积约为68%;两个标准差的面积约为95%;三个标准差的面积约为99.7%;多个正态分布随机变量的线性组合仍为正态分布。正态分布的偏度为0,峰度为3。例3.1(3)正态分布的标准化如果,,则任何一个给定均值和方差的正态变量都可转化为标准正态变量。例3.23.2样本均值的抽样分布(1)独立随机变量如果所有的X独立抽取于从同一概率密度分布(即每个Xi有相同的概率密度函数),我们则称X1,X2,…,Xn构成一容量为n的随机样本。因而称X为独立同分布随机变量。知道某一特定的估计量服从某一特定的概率分布将有助于建立从样本到总体之间的联系。例3.3:令X代表某一型号汽车每消耗一加伦汽油所行驶的距离(英里)。已知X~N(20,4)。则对于由一个有25辆汽车组成的随机样本,求:每消耗一加伦汽油所行驶的平均距离大于21英里的概率。3.2样本均值的抽样分布(2)中心极限定理如果X1,X2,…,Xn是来自均值为u方差为σ2的任一总体的随机样本,随着样本容量无限增大,则其样本均值趋于正态分布,其均值为u,方差为σ2/n。3.3t分布3.3t分布的性质t分布与正态分布类似具有对称性,其均值为0,方差为k/(k-2),但t分布比正态分布略“胖”些。若自由度充分大(至少为30),则t分布近似标准正态分布,因此有t分布和正态分布图像例3.4在15天内,出售面包的平均数量为74条,样本方差为16条。假定真实平均销售量为70条,求某天销售面包数量为74条的概率?3.3χ2分布若Z1,Z2,…,Zk为k个独立的标准正态变量,则其平方和服从自由度为k的χ2分布,即χ2分布的图象N=7N=11概率xN为自由度N=2χ2分布只能取正值,(因为它是平方和的分布),取值范围从0到正无穷大。χ2分布是斜分布,其偏度取决于自由度的大小,自由度越小,越向右偏,但随着自由度的增大,逐渐呈对称,接近于正态分布。χ2分布的期望为k,方差为2k,k为χ2分布的自由度如果Z1,Z2分别是自由度为k1和k2的两个独立χ2变量,则其和(Z1+Z2)也是一个χ2变量,其自由度为(k1+k2)。χ2分布的性质3.5F分布如果,则F值服从分子自由度为(m-1),分母自由度为(n-1)的F分布。F分布的图象x概率密度F分布的性质斜分布,向右偏,取值范围为0到无穷大;当自由度k1,k2逐渐增大时,F分布近似正态分布;自由度为k的t分布变量的平方服从分子自由度为1,分母自由度为k的F分布,即:χ2变量除以其自由度m的值接近分子自由度为m,分母自由度n无限大的F分布。例3.5两班做同样的经济计量学测试。其中,一个班级共有100名学生,另一班级共有150名学生,该老师从第一个班级随机抽取25个学生,从第二个班级随机抽取31个学生,观察得到两个班级学生考试平均分数的样本方差分别为100和132。假设学生考试平均分数这一随机变量服从正态分布,那么两班级分数平均值同方差的概率大概为多少?第4章统计推断:估计与假设检验4.1统计推断的含义4.2点估计及估计量的特征4.3区间估计方法4.4假设检验4.1统计推断的含义统计推断研究的是总体与来自总体的样本之间的关系,根据来自总体的样本对总体的种种特征做出判断。参数估计和假设检验是统计推断的两个孪生分支参数估计问题包括点估计(pointestimation)和区间估计(intervalestimation).假设检验包括置信区间法和显著性检验4.2点估计及估计量的特征一、点估计的含义所谓点估计就是给出被估计参数的一个特定的估计值。例如随机变量X服从某一未知均值和方差的正态分布,若有来自该正态总体的一随机样本,则这些样本数据的平均值就为总体的均值ux的点估计值,为点估计量。4.2点估计及估计量的特征一、点估计的含义点估计量是一个随机变量,因为其值随样本的不同而不同。常用的点估计方法有三种:矩法、最大似然法、最小二乘法。对同一样本根据三种方法估计同一参数,所获得的估计结果可能互不相同。然而由于各种建立原则的合理性,所以三种方法在研究中都经常使用。二、点估计方法(1)矩法矩法是求估计量最古老的方法。具体作法是:以一样本矩作为相应总体矩的估计量;以样本矩的函数作为相应的总体矩同样函数的估计量。这种方法最常见的应用是用样本平均数估计总体数学期望,用样本方差S2估计总体的方差。矩法比较直观,求估计量时有时也比较直接,但它求出的估计量往往不够理想。矩法点估计的例题例4-1某灯泡厂某天生产了一大批灯泡,从中抽取了10个进行寿命试验,获得数据如下(单位:小时),问该天生产的灯泡的平均寿命是多少?计算得样本算术平均数=1147,作为总体数学期望的估计值(2)最大似然法(MaximumLikelihoodEstimation)a、一个重要的事实不同的总体会产生不同的样本,对于某一特定的样本,在不了解产生它的总体究竟为何物的观察者眼中,它来自一些总体的可能性要比来自另一些总体的可能性大,即一些总体更容易产生出我们所观察到的样本。举例说假定我们抽取到(x1,x2,……,x8),知道它来自正态总体,且总体的方差是了解的,但是总体的均值未知。如下图所示。二、点估计方法假定样本不是来自B就是来自A。如果样本来自B,观察到它的可能性非常小;真正的母体若是A,得到样本的可能性很大。显然我们宁愿承认样本来自A。是样本“替”我们“选择”了A。x1x2x3x4x5x6x7x8分布B分布A概率xb、最大似然法的概念上述事实诱导我们宁愿作出这样的抉择:将样本最容易来自的总体当作产生样本的总体。现在要根据从总体中抽取得到的样本(x1,……,xn)对总体中的未知数进行估计。最大似然法是选择这样的估计量^作为的估计值,以便使观察结果(x1,……,xn)出现的可能性(概率)最大。对于离散型变量,就是要选择^使p(x1)p(x2)…p(xn)最大。(连乘——表示一次独立地抽取各个样本观察值)对于连续型变量,就是要选择^使(x1)(x2)...(xn)最大。注意(xi)是随机变量在xi附近取值的概率,相当于离散型的p(xi)。c、似然法函数d、最大似然法的定义和估计方法定义如果L(x1,x2,…,xn;θ)在^处达到最大值,则称^是θ的最大似然估计。为了取得的最大似然估计,必须使似然函数L达到最大值。由于对数函数是单增的,L达到最大亦即LnL达到最大。这样使LnL达到最大来估计为计算带来了许多方便。根据拉格朗日定理,对未知参数求条件极值,令LnL对的一阶导数等于0,即dLnL/d=0==>得到似然方程,所求的^就是似然方程中的解。注意:当不只一个参数需要估计时,应将LnL分别对不同参数求偏导,然后解似然方程组最大似然估计法对方差的估计往往是有偏估计量,以后对线性模型估计时也是如此。(3)最小二乘法(LeastSquareEstimationMethod)最小二乘法是计量经济学中应用最广泛的一种估计方法。这是本课程研究的重点问题,在以后各章中将详尽地阐述它的原理、步骤、特性和优越处。二、点估计方法三点估计量的特征所谓估计量的特性指的是衡量一个统计量用以估计总体参数的好坏标准。点估计量的一些统计性质(1)线性;(2)无偏性;(3)有效性;(4)最优线性无偏估计量(BLUE);(5)一致性(1)线性若估计量是样本观察值的线性函数,则称该估计量是线性估计量样本均值是一个线性估计量(2)无偏性无偏性的直观意义根据样本推得的估计值和真值可能不同,然而如果有一系列抽样依据同一估计方法就可以得到一系列估计值,很自然会要求这些估计的期望值与未知参数的真值相等。这就是无偏性的概念,无偏性的直观意义是:样本估计量的数值在真值周围摆动,即无系统误差。无偏性的定义的真值的真值有偏无偏例4-3无偏性是估计量最重要的优良性,是一个重复抽样的性质,它只能保证估计量的期望等于真值。而且,对于总体某个待定参数,其无偏估计量不只一个。例如样本中位数也是真实均值的无偏估计量。(3)最小方差性如果其方差比其他任何估计量的方差都要小,那么这个估计量就称为最小方差估计量。(4)有效性总体某个参数的无偏估计量往往不只一个,而且无偏性仅仅表明的所有可能的取值按概率平均等于,它的可能取值可能大部分与相差很大。为保证的取值能集中于附近,必须要求的方差越小越好。所以,提出有效性标准。有效性的定义例4-4比较总体均值两个无偏估计的有效性无偏有效估计量的意义(1)一个无偏有效估计量的取值在可能范围内最密集于附近。换言之,它以最大的概率保证估计量的取值在真值附近摆动。(2)可以证明,样本均值是总体数学期望的有效估计量。(5)最优线性无偏估计量如果一个估计量是线性的和无偏的,并且在参数的所有线性无偏估计量中,这个估计量的方差最小,则称这个估计量是最优线性无偏估计量(bestlinearunbiasedextimator,BLUE)。(6)一致性“依概率收敛”的定义若存在常数a,使对于任何ε>0,有则称随机变量序列{ξn}依概率收敛于a.一致性一致性既是从概率又是从极限性质来定义的,因此只有样本容量较大时才起作用。一致性作为评价估计量好坏的一个标准,计量经济学家在无偏性和一致性之间更偏重选择一致性。虽然一个一致估计量可能在平均意义上与真值不同,但是当样本容量加大时,它会变得与真值十分接近,即有偏的一致估计量具有大样本下的无偏性。同时,根据大数定律,当n增大时,方差会变得很小,所以一致估计量具有大样本下的“无偏性”和“有效性”。4.3区间估计区间估计就是以一定的可靠性给出被估计参数的一个可能的取值范围。一般的,假定随机变量X服从某一概率分布,若要对其参数进行估计,选取容量为n的随机样本,找出两个统计量1(x1,…,xn)与2(x1,…,xn),使P(1<<2)=1-其中(1,2)称为置信区间,1-称为置信系数(置信度),称为显著性水平或犯第一类错误的概率,一般取5%或1%。如果建立一个置信系数为95%的置信区间,那么重复建立这样的区间100次,预期有95次包括了真实的ux。对区间估计的形象比喻我们经常说某甲的成绩“大概80分左右”,可以看成一个区间估计问题。(某甲的成绩为被估计的参数)P(1<<2)=大概的准确程度(1-)如:P(75<<85)=95%=1-5%“大概80分左右”冒险率(假设检验中叫显著水平)下限上限例4-5利用t分布来求前面所讲的纽约股票交易市场的价值收益值一例中的均值ux的区间估计值。注意:该置信区间是随机的,它依赖于样本的取值,但总体均值取某一固定值,是非随机的,所有不能说ux位于区间的概率是0.95,只能说这个区间包括真实ux的概率是0.95.一、对总体期望值的估计(1)已知方差,对总体数学期望E=进行区间估计(正态总体)/2/21-例4.6:某灯泡厂某天生产了一大批灯泡,从中抽取了10个进行寿命试验,获得数据如下(单位:小时),假设总体服从正态分布,总体方差为8,求电子管寿命的置信区间(=5%)。(2)方差未知,对数学期望E进行区间估计大样本下根据中心极限定理,V可以用S2代替,所以仍按已知方差正态分布的方法进行的置信区间估计。小样本下例4-7新生儿体重的置信区间假设新生儿(男)的体重服从正态分布。随机抽取12名新生儿,测得体重如下表,试以95%的置信度估计新生儿(男)的平均体重。二、对总体方差的估计(未知u时对总体方差进行区间估计)总体方差区间估计的例题例4-8冷拔丝的抗拉强度服从正态分布N(μ,σ2),现从一批铜丝中任取10根,测的抗拉强度数据(单位:N)如下:578、572、570、568、572、570、570、596、584、572,求σ2的置信度为90%的置信区间.三、关于区间估计的几点说明在进行区间估计时,应针对不同的情况,采用不同的方法。例如分清分布的形式是已知或是未知;是大样本或是小样本;小样本(估计总体数学期望时)又分清是已知方差或是未知方差等。充分利用分布信息可以得到较精确的估计。一般地,越大置信度越低,置信区间越长;越小置信度越高,置信区间越短。4.4假设检验一、假设检验的概念二、显著性检验三、置信区间法四、假设检验的应用一、假设检验的概念定义:称对任何一个随机变量未知分布的假设为统计假设,简称假设。一个仅涉及到随机变量分布中未知参数的假设称为参数假设。一个仅涉及到随机变量分布的形式而不涉及到未知参数的假设称为非参数假设。提出一个统计假设的关键是将一个实际的研究问题用数学语言转换为统计假设。例4-9.检验一个硬币是否均匀抛掷一个硬币100次,“正面”出现60次,问此硬币是否均匀?分析:若用X描述抛掷硬币的试验,“X=1”和“X=0”分别表示“出现正面”和“出现反面”。上述问题就是检验X是否可以被认为服从p=0.5的0-1分布。问题是分布形式已知,检验参数p=0.5的假设。记作,H0:p=0.5H1:p≠0.5零假设与备择假设在统计假设——H0:p=0.5H1:p≠0.5中,H0称为零假设或原假设,是进行统计假设检验欲确定其是否成立的假设——体现我们进行假设检验的目的。H1称为备择假设,零假设是对立于备择假设的,如果不支持零假设,则接受备择假设。假设检验包括置信区间法和显著性检验法例4-10检验新生女婴体重是否等于某个既定值从2003年出生的女婴中随机地抽取20名,测得平均体重=3160克,标准差=300克,根据已有的统计资料新生女婴的体重=3140克,问现在与过去新生女婴的体重是否有变化?分析:把2003年出生的女婴视为一个总体,用X描述,问题就是判断:H0:EX=3140H1:EX≠3140因为通常可以假定经过量测得到的资料是服从正态分布的,无须检验总体的分布形式,显然这是一个关于参数的假设检验问题。二、显著性检验(1)两类错误的概念(2)Neyman-Pearson方法(3)显著性水平与P值(4)几类特殊的显著性检验(1)两类错误的概念由于假设检验是从样本到总体,因而结果不可能绝对正确,它有可能是错误的;而且出现错误可能性的大小,也是以统计规律(小概率原理)为依据的。所以可能犯的错误有两类:第一类—弃真,原假设符合实际情况,而检验结果把它否定了。设犯这类错误的概率为,那么=p(否定H0/H0实际上为真)。为显著性水平第二类—取伪,原假设不符合实际情况,而检验结果却把它肯定下来。设犯这类错误的概率为,那么=p(接受H0/H0实际上不正确)。1-称为检验的功效(2)Neyman-Pearson方法自然希望犯两类错误的概率都越小越好。但对一定的样本容量n,一般都不能做到犯这两类错误的概率同时都小。由于减小=>增大,或者减小=>增大。一般愿意使犯”第一类错误“的概率较小,则拒绝错了的概率就较小,而不考虑。Neyman-Pearson提出了一种方法:先固定犯“第一类错误”的概率,再考虑如何减小犯“第二类错误”的概率,也称Fix,Min方法。当确定以后,让尽量的小,1-就越大,称不犯“第二类错误”的概率为“检验的功效(Poweroftest)。(3)显著性水平与P值显著水平指的是犯“第一类错误”的可能性,在给定的小概率下,零假设几乎是不可能发生的,可以认为零假设H0是错的,必须抛弃它。同时,即使抛弃零假设H0,这时也只需冒的风险,<==>抛弃H0的可靠性则为1-。如果假设事关重大,譬如人命关载人的宇宙飞船升空或药品试验,则必须提高差异显著水平即减小,使我们不能轻易地拒绝H0。否则,则可以降低显著水平。检验(统计量)是统计显著的一般是指能够拒绝零假设,即观察到的样本值与假设值不同的概率非常小,小于(犯第一类错误的概率);检验是统计不显著的,是指不能拒绝零假设。为了避免在选择显著性水平时的任意性,可以计算检验的p值。检验的p值(p-value)是指给定t统计量的观测值,能拒绝虚拟假设的最小显著性水平。小的p值是拒绝虚拟假设的证据。例4-11:df=40,t=2.423(检验统计量的数值),求针对双侧对立假设来检验虚拟假设的p值。以上p值意味着,如果虚拟假设正确,那么我们约有2%次观察到t统计量的绝对值至少和2.423一样大。可以看出,p值越小,对应的统计量值t应该越大,越可能拒绝H0。面积=0.01-2.4232.423面积=0.01面积=0.08如果用α表示检验的显著性水平(小数形式),那么p值<α时,则拒绝虚拟假设,否则在100α%显著性水平下,不能拒绝H0。注意(1)对于线性回归方程,一般软件包报告了回归系数及标准误,并且给出了针对双侧对立假设的p值,将其除以2,即可得到单侧对立假设的p值;(2)随着样本容量的扩大,一般使用较小的显著性水平,以作为抵偿标准误越来越小的一种办法;对于小样本容量,可以接受较大的显著性水平,可以扩大到0.20(4)几类特殊的显著性检验t检验:未知总体方差,检验总体均值单侧检验(one-tailtest)或双边检验关于t检验的两种类型比较见377页卡方显著性检验:检验总体方差随机样本来自方差为σ2的正态总体,其样本容量为n,样本方差为S2,则卡方显著性检验小结(P378)例4-12:假定随机样本来自正态总体,样本容量为35,样本方差为12,零假设为真实的方差为9;备择假设为真实的方差不等于9,显著性水平为5%。进行卡方显著性检验。F显著性检验:检验两个正态总体方差是否相等如果X、Y是来自两正态总体的随机样本,自由度分别为m和n,则变量F显著性检验小结见P379例4-13:假设男女学生分数的方差分别为46.61和83.88,其样本观察值为24、23,假设这些方差代表了来自于一更大总体的样本。检验假设:男女学生数学分数总体同方差,显著性水平为1%。解答:这里,F值为83.88/46.62=1.80(近似值)。该F值服从自由度均为23的F分布,根据F分布表,自由度为24(表中未给出自由度为23的值),在1%的显著水平下,临界的F值为2.66。由于计算的F值为1.80,小于2.66,故它不是统计显著的。也即,在显著性水平为1%时,不能拒绝两总体同方差。三、置信区间法置信区间法提供某一置信度(例如95%)的真实的ux的取值范围,比如10.63≤ux≤12.36,如果这个区间不包括零假设中的值,比如ux=13,那么我们说以95%的置信度拒绝该零假设。用假设检验的语言,不等式描述的置信区间称为接受区域(acceptanceregion),接受区域以外的称为零假设的临界区域(criticalregion)或拒绝区域(regionofrejection),接受区域的上界和下界称为临界值(criticalvalues)。如果参数值在零假设下位于接受区域内,则不拒绝零假设,但如果落在接受区域以外,则拒绝零假设。三、置信区间法通过求置信区间进行假设检验的例子例4-14根据长期经验和资料分析,某砖厂生产的砖的“抗断强度”服从正态分布,方差=1.21,今从该厂生产的砖中随机地抽取6块砖,测得强度如下(单位千克/cm2):检验这批砖的平均抗断强度为32.50千克/cm2是否成立(=0.05)?解:H0:=32.50H1:≠32.50首先求的置信区间:四、假设检验的应用单正态总体的假设检验设总体~N(,2),对于其参数,2的假设检验,讨论3种情况:已知方差2,检验假设H0:=0未知方差2,检验假设H0:=0未知期望,检验假设H0:2=20其中,H0中的0和20均是已知的数。已知总体方差,检验总体均值等于定值1、提出零假设H0:=0H1:≠0(双侧检验)2、根据抽样所得样本计算检验统计量3、确定显著水平=0.05(或0.01)和相应的临界值uα/24、将计算的U与uα/2进行比较。如果U落在拒绝域内,则拒绝H0,否则接收H0未知总体方差,检验总体均值等于定值例4-15从2003年出生的新生女婴中随机抽取20个,测得其平均体重为3160克
本文档为【计量经济学概论课件】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥28.0 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
zzx
暂无简介~
格式:ppt
大小:7MB
软件:PowerPoint
页数:499
分类:医药卫生
上传时间:2022-09-29
浏览量:6