SASGLM过程PPT演示文稿

SASGLM过程PPT演示文稿采用GLM过程进行回归和方差分析1、GLM应用背景2、GLM原理简介3、GLM的功能4、GLM的格式5、GLM作一元线性回归6、GLM作多元线性回归7、GLM作多项式回归8、虚拟变量的设置9、多个随机实验组协方差分析（GLM应用）10趋势面回归分析（GLM应用）11非线性回归分析一（对数、多项式回归）12非线性回归二(拟合Logistic曲线与正负指数的回归)13方差分析（ANOVA）14多因素二水平排列组合方差分析（ANOVA的应用）15随机配伍组与对照组的方差分析（ANOVA的应用）采用GLM过程进行回归和方差...

采用GLM过程进行回归和方差分析1、GLM应用背景2、GLM原理简介3、GLM的功能4、GLM的格式5、GLM作一元线性回归6、GLM作多元线性回归7、GLM作多项式回归8、虚拟变量的设置9、多个随机实验组协方差分析（GLM应用）10趋势面回归分析（GLM应用）11非线性回归分析一（对数、多项式回归）12非线性回归二(拟合Logistic曲线与正负指数的回归)13方差分析（ANOVA）14多因素二水平排列组合方差分析（ANOVA的应用）15随机配伍组与对照组的方差分析（ANOVA的应用）采用GLM过程进行回归和方差分析1、GLM应用背景相关分析只能反映两变量之间的相关性强弱及趋势，但无法给出变量间因果关系的函数关系，即函数方程。回归分析可以给出因变量（随机变量）与自变量（可控变量）的相关关系的函数关系式，GLM就是研究相关关系广泛的使用的方法。2、GLM原理简介（一）最小二乘法原理GLM原理，是使用最小二乘法（leastsquaremethod），研讨一个线性模型。（一）最小二乘法原理一、背景基本介绍在实际应用中如，金融、经济变量之间的关系，大体上可以分为两种：（1）函数关系：Y=f(X1,X2,….,XP)，其中Y的值是由Xi（i=1,2….p）所唯一确定的。（2）相关关系:Y=f(X1,X2,….,XP)，这里Y的值不能由Xi（i=1,2….p）精确的唯一确定。（一）最小二乘法原理图5-1表示的是我国货币供应量M2（y）与经过季节调整的GDP（x）之间的关系（数据为1995年第一季度到2004年第二季度的季度数据）。（一）最小二乘法原理但有时候我们想知道当x变化一单位时，y平均变化多少，可以看到，由于图中所有的点都相对的集中在图中直线周围，因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线，我们就可以用直线的斜率来表示当x变化一单位时y的变化程度，由图中的点确定线的过程就是回归。（一）最小二乘法原理但有时候我们想知道当x变化一单位时，y平均变化多少，可以看到，由于图中所有的点都相对的集中在图中直线周围，因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线，我们就可以用直线的斜率来表示当x变化一单位时y的变化程度，由图中的点确定线的过程就是回归。（一）最小二乘法原理对于变量间的相关关系，我们可以根据大量的统计资料，找出它们在数量变化方面的规律（即“平均”的规律），这种统计规律所揭示的关系就是回归关系（regressiverelationship）,所表示的数学方程就是回归方程（regressionequation）或回归模型（regressionmodel）。（一）最小二乘法原理图5-1中的直线可表示为（5.1）根据上式，在确定α、β的情况下，给定一个x值，我们就能够得到一个确定的y值，然而根据式（2.1）得到的y值与实际的y值存在一个误差（即图2-1中点到直线的距离）。（一）最小二乘法原理如果我们以ｕ表示误差，则方程（5.1）变为：其中t（=1,2,3,…..,T）表示观测数。（5.2）（5.3）式（2.3）即为一个简单的双变量回归模型（因其仅具有两个变量x,y）的基本形式。（一）最小二乘法原理其中yt被称作因变量（dependentvariable）、被解释变量（explainedvariable）、结果变量（effectvariable）；xt被称作自变量（independentvariable）、解释变量（explanatoryvariable）、原因变量（causalvariable）（一）最小二乘法原理α、β为参数（parameters）,或称回归系数（regressioncoefficients）；ｕt通常被称为随机误差项（stochasticerrorterm）,或随机扰动项（randomdisturbanceterm）,简称误差项，在回归模型中它是不确定的，服从随机分布（相应的，yt也是不确定的，服从随机分布）。（一）最小二乘法原理为什么将ｕt包含在模型中？（1）有些变量是观测不到的或者是无法度量的，又或者影响因变量yt的因素太多；（2）在yt的度量过程中会发生偏误，这些偏误在模型中是表示不出来的；（3）外界随机因素对yt的影响也很难模型化，比如：恐怖事件、自然灾害、设备故障等。（一）最小二乘法原理假设线性回归模型为t=1,2,3….T(5-4)对y产生影响的解释变量共有k-1（x2t,x3t…,xkt）个，系数（β1’β2’…..βk）分别衡量了解释变量对因变量y的边际影响的程度。最小二乘法的基本原则是：最优拟合直线应该使各点到直线的距离的和最小，也可表述为距离的平方和最小。（一）最小二乘法原理方差分析SST=SSE+SSRSST、SSE、SSR的关系以下图来表示更加直观一些：图5－2SST、SSE、SSR的关系（一）最小二乘法原理=+（5.5）是被模型所解释的部分，称为回归平方和（theexplainedsumofsquares，简记SSR）；是不能被模型所解释的残差平方和（SSE）,即=配置最佳线性方程的条件是：1、SSR达到最小2、因变量的偏离其均值的偏差和为零。采用GLM过程进行回归和方差分析1、GLM应用背景2、GLM原理简介3、GLM的功能4、GLM的格式5、GLM作一元线性回归6、GLM作多元线性回归7、GLM作多项式回归8、虚拟变量的设置9、多个随机实验组协方差分析（GLM应用）10趋势面回归分析（GLM应用）11非线性回归分析一（对数、多项式回归）12非线性回归二(拟合Logistic曲线与正负指数的回归)13方差分析（ANOVA）14多因素二水平排列组合方差分析（ANOVA的应用）15随机配伍组与对照组的方差分析（ANOVA的应用）概述本章目录GLM中语句的格式ProcGLM[data=dataname][output=输出统计量][order=formated|freq|data|internal];Class分类变量；/*此为第二条语句，后面需model配合*/Model因变量Y=自变量X[/NOINT|INT|intercept|NounI|solution|tolerrance|E|E1|E2|E3|E4|SS1|SS2|SS3|SS4|P|CLM|CLI|ALPHA=|XPX|INVERSE|SINGULAR=1E-8或0|ZETA=1E-8或0]GLM过程GLM中语句的格式（续）CONTRAST‘对照说明。10个汉字，20个字符’向量L及元素[/E|E=effect或默认为MS|ETYPE=n|SINGULAR=number]；ESTIMATE‘估计的说明，小于20个字符’值1值2…[/E|DIViSOR=number|SINGULAR=number];LSMEANSeffect[/E|=effect|ETYPE=n|SINGULAR=number|STDERR|PDIFF];NMAMES=namesPREFIX=name[/PRINTHPRINTEHTYPE=nETYPE=nCANONICALSUMMARYORTH]];GLM过程GLM中语句的格式（续）[outputout=数据集名称predicted=变量表|P=变量表[RESIDUAL=变量表|R=变量表]]；Randomeffect/Q;[REPEATED因变量名因子1因子2因子3…(值1值2…)][转换的关键字/选项；]/*详见ANOVA一章*/[TESTH=effectsE=effect/HTYPE=ETYPE=;]]/*详见ANOVA一章*/GLM过程GLM中语句的格式（续）BY变量表；ABSORB变量表；/*变量表须预先sort。此语句使GLM无法产生预测值或输出一个数据集*/FREQ变量表；/*按变量表中的观察值n，显示n次*/ID变量表；/* 要求在同行上显示出各变量值、预测值及残差*/MEANSEffcet/选项；]/*详见ANOVA一章means语句*/GLM过程GLM中各语句的格式说明1、主语句procGLM的说明ProcGLM[data=dataname][output=输出统计量][order=formated|freq|data|internal];order=关键字，[order=formated|freq|data|internal可选4个中的某个：order=formated：要求人为指定数据显示格式order=freq：要求按观察值频次降序排列GLM过程GLM中各语句的格式说明(续)order=data：要求按数据录入顺序（即原始数据行）显示数据行。order=internal：按系统默认格式显示数据行。GLM过程GLM中各语句的格式说明(续)2、Class分类变量；格式为：classV1V2…V1V2…均为分类变量，字符型变量限于10个字符内。Class分类变量；/*此为第二条语句，后面必需与model配合*/GLM过程GLM中各语句的格式说明(续)Model语句（必不可少）Model语句（必不可少），用于建立各种回归模型或方差分析模型。例：设A、B、C代表分类变量，V1-V3代表连续变量，可用Model语句建立三类模型，GLM过程GLM中各语句的格式说明(续)GLM过程GLM中各语句的格式说明(续)Model备注：1）modelY=Abca*ba*cb*ca*b*c等效于modelY=a|b|c；等号右边为自变量或独立变量，比如Ab等号左边为因变量3、控制标准假设检验方面的选项E:要求GLM显示所有估计函数的一般格式。E1：显示每个效应（effect）第一类（TYPEI）的估计函数。E2：显示每个效应（effect）第二类（TYPE2）的估计函数。E3：显示每个效应（effect）第三类（TYPE3）的估计函数。E4：显示每个效应（effect）第四类（TYPE4）的估计函数。3、控制标准假设检验方面的选项（续）ss1:显示每个效应配合type1估计函数所产生的平方和ssss2:显示每个效应配合type2估计函数所产生的平方和ssss3:显示每个效应配合type3估计函数所产生的平方和ssss4:显示每个效应配合type4估计函数所产生的平方和ss4、预测值与残差值的选项P：要求GLM显示每个观测值、预测值、残差及DW统计量。Clm显示每个观测值、预测值的置信度Cli显示每个观测值置信度ALPHA=p：指定置信区间的ALPHA值5、显示中间结果XPX：要求显示XTX矩阵Inverse：显示XTX矩阵逆矩阵或一般化矩阵6、调整模型Singular=值n：调整回归模型对线性关系的敏感性。默认值为n=1E-8ZETA=值m：对可估计的type3和type4两检验函数的敏感性进行检验。m=1E-8Procglm；Classabc；Modely=a|b|c|E2E3ZETA=1E-6GLM过程Contrast（对照）语句Contrast格式contrast‘对照说明’[向量L值1值2…]/选项；该语句可以对结果进行假设检验如单变量（H0：LB=0）多变量（H0：LBM=0）GLM过程Contrast（对照）语句例如ModelY=AB；A有五种值，B有三种值向量L元素为:(miuA1A2A3A4A5B1B2B3)H0:A合并线性（pooledAliner）与A二次效应为0L矩阵（0-2-101200）（02-1-2-1200）GLM过程Contrast（对照）语句/后的选项E要求显示整个L向量E=effect:在模型中指定一个effect项为误差项。省略用估计的MS作为误差项ETYPE=nn=1234指明E=effect类型Singular=number：用于检查估计值。GLM过程Contrast（对照）语句Procglm；Classabc；Modely=a|b|c|E2E3ZETA=1E-6Contrast‘A的线性与二次效应’A-2-1012A2-1-2-12/ESingular=1E-2;GLM过程Estimate语句该句用于估计参数的线性函数，它必须紧跟在MODEL之后格式:model…estimate‘标签内容（<20个字符）’向量名称元素1…/Edivisor=m(向量中元素除以m)singular=n（估计向量L所用的检验值）;GLM过程Lsmeans语句格式：Lsmeans　ＡBC/EstderrpdiffE=effctEtype=nsingular=number;说明同上。Procglm；Classabc；Modely=abca*b；Lsmeansy=abca*b；Lsmeans语句要求显示abc主效应及a*b交互效应中每个水平（lever）的最小二乘法的均值。GLM过程Manova语句ManovaH=effectE=effectM=式1，式2，…Mnames=V1…;Prefix=被转换的变量名/printhprinteshortCanonicalsummary;说明见ANOVA（ANOVA，全称是AnalysisOfVariation）GLM过程Output语句Outputout=数据及名称predicted|P=VnResidual|R=vnVn为新变量名例如：Procglm；Classabc；Modely=abca*b；Outputout=new1P=YhatR=Resid;Run;GLM过程RANDOM该语句指定模型中具有随机性的effect项，以便显示type1-type4中每个effect的期望值。格式：Randomabc/q;/Qx显示出主效应中期望均方的完整二次型。Eg:Randomsexedc/q;GLM过程Repeated语句该语句表示同一试验单位下，在model语句中因变量值具有的重复测量格式repeated因变量名因子1因子2…GLM过程其他语句AbsorbV1V2…BYV1V2…FreqV;IDV1V2…GLM过程实例1optionsnodatenonumber;procformat;valuegroupfmt1='Hydrolysate-I'2='Hydrolysate-II'3='Casein';dataaconova1;doi=1to8;dogroup=1to3;inputagefoodweight@@;output;end;end;formatgroupgroupfmt.;cards;6281.7375309.8248259.38210274.0476317.8435241.2668253.83710326.1606248.5745261.4348322.1507242.8797272.8427323.5478255.7825272.2276321.2427254.3766272.3325311.8395244.6737293.24410324.55310243.890;procglm;classgroup;modelweight=groupagefood/solution;lsmeansgroup/pdiffstderr;run;GLM过程实例1TheSASSystemTheGLMProcedureDependentVariable:weightSumofSourceDFSquaresMeanSquareFValuePr>FModel48557.6897092139.422427142.31<.0001Error19285.64362515.033875CorrectedTotal238843.333333GLM过程实例1解释R-SquareCoeffVarRootMSEweightMean0.9677007.2700393.87735453.33333SourceDFTypeISSMeanSquareFValuePr>Fgroup27364.3333333682.166667244.92<.0001age11124.2056671124.20566774.78<.0001food169.15070869.1507084.600.0451TypeISS表示每一个自变量分别选入到回归模型时model（ssR）的增加值SourceDFTypeIIISSMeanSquareFValuePr>Fgroup24452.0346762226.017338148.07<.0001age1868.748973868.74897357.79<.0001food169.15070869.1507084.600.0451TypeIIISS表示每一个自变量分别最后选入到回归模型时model（ssR）的增加值GLM过程实例1解释StandardParameterEstimateErrortValuePr>|t|Intercept-52.36421256B32.01484931-1.640.1184groupCasein49.08673657B7.518895226.53<.0001groupHydrolysate-I4.50030871B5.151752580.870.3933groupHydrolysate-II0.00000000B...age3.737626120.491681847.60<.0001food0.220537000.102829712.140.0451GLM过程实例1解释TheGLMProcedureLeastSquaresMeansweightStandardLSMEANgroupLSMEANErrorPr>|t|NumberCasein84.55772153.5301129<.00011Hydrolysate-I39.97129361.5696985<.00012Hydrolysate-II35.47098494.2399044<.00013显示每个效应下的均值及标准误差GLM过程实例1解释LeastSquaresMeansforeffectgroupPr>|t|forH0:LSMean(i)=LSMean(j)DependentVariable:weighti/j1231<.0001<.00012<.00010.39333<.00010.3933显示所有可能的概率值。GLM过程5、调用GLM程序作一元线性回归例如:Procglm;Formatedcedcf;Formatsexsexf;modelsal2=edc;Outputout=new1P=predictR=residual;Procplot;Plotsal2*edcpredict*edc='p'/overlay;Plotresidual*edc/vref=0;Run;GLM过程结果说明P表示图点Vref表示正负分界线残差不独立说明GLM过程第二节一元回归估计与检验理论估计（LSE）检验（F）第一节估计理论-参数的最小二乘估计(一)方法介绍本章所介绍的是普通最小二乘法（ordinaryleastsquares,简记OLS）;最小二乘法的基本原则是：最优拟合直线应该使各点到直线的距离的和最小，也可表述为距离的平方和最小。假定根据这一原理得到的α、β估计值为、，则直线可表示为。直线上的yt值，记为，称为拟合值（fittedvalue）,实际值与拟合值的差，记为，称为残差（residual），可以看作是随机误差项的估计值。根据OLS的基本原则，使直线与各散点的距离的平方和最小，实际上是使残差平方和（residualsumofsquares,简记RSS）最小，即最小化：RSS==（2.4）根据最小化的一阶条件，将式2.4分别对、求偏导，并令其为零，即可求得结果如下:（2.5）（2.6）（二）一些基本概念1.总体（thepopulation）和样本（thesample）总体是指待研究变量的所有数据集合，可以是有限的，也可以是无限的；而样本是总体的一个子集。2、总体回归方程（thepopulationregressionfunction，简记PRF），样本回归方程（thesampleregressionfunction，简记SRF）。总体回归方程（PRF）表示变量之间的真实关系，有时也被称为数据生成过程（DGP），PRF中的α、β值是真实值，方程为：+（2.7）样本回归方程（SRF）是根据所选样本估算的变量之间的关系函数，方程为：注意：SRF中没有误差项，根据这一方程得到的是总体因变量的期望值（2.8）于是方程（2.7）可以写为：（2.9）总体y值被分解为两部分：模型拟合值（）和残差项（）。3.线性关系对线性的第一种解释是指：y是x的线性函数，比如，y=。对线性的第二种解释是指：y是参数的一个线性函数，它可以不是变量x的线性函数。比如y=就是一个线性回归模型，但则不是。在本课程中，线性回归一词总是对指参数β为线性的一种回归（即参数只以一次方出现），对解释变量x则可以是或不是线性的。有些模型看起来不是线性回归，但经过一些基本代数变换可以转换成线性回归模型。例如，（2.10）可以进行如下变换：（2.11）令、、，则方程（2.11）变为：（2.12）可以看到，模型2.12即为一线性模型。4.估计量（estimator）和估计值（estimate）估计量是指计算系数的方程；而估计值是指估计出来的系数的数值。最小二乘估计量的性质和分布（一）经典线性回归模型的基本假设（1），即残差具有零均值；（2）var<∞,即残差具有常数方差，且对于所有x值是有限的；（3）cov，即残差项之间在统计意义上是相互独立的；（4）cov，即残差项与变量x无关；（5）ｕt~N,即残差项服从正态分布（二）最小二乘估计量的性质如果满足假设(1)－(4)，由最小二乘法得到的估计量、具有一些特性，它们是最优线性无偏估计量（BestLinearUnbiasedEstimators，简记BLUE）。估计量（estimator）：意味着、是包含着真实α、β值的估计量；线性（linear）：意味着、与随机变量y之间是线性函数关系；无偏（unbiased）：意味着平均而言，实际得到的、值与其真实值是一致的；最优（best）：意味着在所有线性无偏估计量里，OLS估计量具有最小方差。(三)OLS估计量的方差、标准差和其概率分布1.OLS估计量的方差、标准差。给定假设(1)－(4)，估计量的标准差计算方程如下:其中，是残差的估计标准差。（2.21）（2.22）参数估计量的标准差具有如下的性质：（1）样本容量T越大，参数估计值的标准差越小；（2）和都取决于s2。s2是残差的方差估计量。s2越大，残差的分布就越分散，这样模型的不确定性也就越大。如果s2很大，这意味着估计直线不能很好地拟合散点；（3）参数估计值的方差与成反比。其值越小，散点越集中，这样就越难准确地估计拟合直线；相反，如果越大，散点越分散，这样就可以容易地估计出拟合直线，并且可信度也大得多。比较图2－2就可以清楚地看到这点。图2－2直线拟合和散点集中度的关系（4）项只影响截距的标准差，不影响斜率的标准差。理由是：衡量的是散点与y轴的距离。越大，散点离y轴越远，就越难准确地估计出拟合直线与y轴的交点（即截距）；反之，则相反。2．OLS估计量的概率分布给定假设条件(5)，即～，则也服从正态分布系数估计量也是服从正态分布的：（2.30）（2.31）需要注意的是：如果残差不服从正态分布，即假设(5)不成立，但只要CLRM的其他假设条件还成立，且样本容量足够大，则通常认为系数估计量还是服从正态分布的。其标准正态分布为：（2.32）（2.33）但是，总体回归方程中的系数的真实标准差是得不到的，只能得到样本的系数标准差（、）。用样本的标准差去替代总体标准差会产生不确定性，并且、将不再服从正态分布，而服从自由度为T-2的t分布，其中T为样本容量即：~(2.34)~(2.35)3.正态分布和t分布的关系图2-3正态分布和t分布形状比较从图形上来看，t分布的尾比较厚，均值处的最大值小于正态分布。随着t分布自由度的增大，其对应临界值显著减小，当自由度趋向于无穷时，t分布就服从标准正态分布了。所以正态分布可以看作是t分布的一个特例。第二节一元线性回归模型的统计检验一、拟合优度(goodnessoffitstatistics)检验拟合优度可用R2表示：模型所要解释的是y相对于其均值的波动性，即（总平方和，thetotalsumofsquares，简记TSS），这一平方和可以分成两部分：=+（2.36）是被模型所解释的部分，称为回归平方和（theexplainedsumofsquares，简记ESS）；是不能被模型所解释的残差平方和（RSS）,即=TSS、ESS、RSS的关系以下图来表示更加直观一些：图2－4TSS、ESS、RSS的关系拟合优度＝因为TSS=ESS+RSS所以R2＝（2.39）（2.37）（2.38）R2越大，说明回归线拟合程度越好；R2越小，说明回归线拟合程度越差。由上可知，通过考察R2的大小，我们就能粗略地看出回归线的优劣。但是，R2作为拟合优度的一个衡量标准也存在一些问题：（1）如果模型被重新组合，被解释变量发生了变化，那么R2也将随之改变，因此具有不同被解释变量的模型之间是无法来比较R2的大小的。（2）增加了一个解释变量以后，R2只会增大而不会减小，除非增加的那个解释变量之前的系数为零，但在通常情况下该系数是不为零的，因此只要增加解释变量，R2就会不断的增大，这样我们就无法判断出这些解释变量是否应该包含在模型中。（3）R2的值经常会很高，达到0.9或更高，所以我们无法判断模型之间到底孰优孰劣。为了解决上面第二个问题，我们通常用调整过的R2来代替未调整过的R2。对R2进行调整主要是考虑到在引进一个解释变量时，会失去相应的自由度。调整过的R2用来表示，公式为：其中T为样本容量，K为自变量个数（2.40）二、假设检验假设检验的基本任务是根据样本所提供的信息，对未知总体分布某些方面的假设做出合理解释假设检验的程序是，先根据实际问题的要求提出一个论断，称为零假设（nullhypothesis）或原假设，记为H0（一般并列的有一个备择假设（alternativehypothesis）,记为H1）然后根据样本的有关信息，对H0的真伪进行判断，做出拒绝H0或不能拒绝H0的决策。假设检验的基本思想是概率性质的反证法。概率性质的反证法的根据是小概率事件原理。该原理认为“小概率事件在一次实验中几乎是不可能发生的”。在原假设H0下构造一个事件（即检验统计量），这个事件在“原假设H0是正确的”的条件下是一个小概率事件，如果该事件发生了，说明“原假设H0是正确的”是错误的，因为不应该出现的小概率事件出现了，应该拒绝原假设H0。假设检验有两种方法：置信区间检验法（confidenceintervalapproach）和显著性检验法（testofsignificanceapproach）。显著性检验法中最常用的是t检验和F检验，前者是对单个变量系数的显著性检验，后者是对多个变量系数的联合显著性检验。（一）t检验下面我们具体介绍对方程（2.3）的系数进行t检验的主要步骤。（1）用OLS方法回归方程（2.3），得到β的估计值及其标准差。（2）假定我们建立的零假设是：，备则假设是（这是一个双侧检验)。则我们建立的统计量服从自由度为T-2的t分布。（3）选择一个显著性水平（通常是5%）,我们就可以在t分布中确定拒绝区域和非拒绝区域，如图2-5。如果选择显著性水平为5%，则表明有5%的分布将落在拒绝区域图2-5双侧检验拒绝区域和非拒绝区域分布（4）选定显著性水平后，我们就可以根据t分布表求得自由度为T-2的临界值，当检验统计值的绝对值大于临界值时，它就落在拒绝区域，因此我们拒绝的原假设，而接受备则假设。反之则相反。可以看到，t检验的基本原理是如果参数的假设值与估计值差别很大，就会导致小概率事件的发生，从而导致我们拒绝参数的假设值。(二）置信区间法仍以方程2.3的系数β为例，置信区间法的基本思想是建立围绕估计值的一定的限制范围，推断总体参数β是否在一定的置信度下落在此区间范围内。置信区间检验的主要步骤（所建立的零假设同t检验）。（1）用OLS法回归方程（2.3），得到β的估计值及其标准差。（2）选择一个显著性水平（通常为5%），这相当于选择95%的置信度。查t分布表，获得自由度为T-2的临界值。（3）所建立的置信区间为（，）（2.41）（4）如果零假设值落在置信区间外，我们就拒绝的原假设；反之，则不能拒绝。需要注意的是，置信区间检验都是双侧检验，尽管在理论上建立单侧检验也是可行的。（三）t检验与置信区间检验的关系在显著性检验法下，当的绝对值小于临界值时，即：（2.42）时，我们不能拒绝原假设。对式（2.41）变形，我们可以得到：（2.43）可以看到，式（2.43）恰好是置信区间法的置信区间式（2.41），因此，实际上t检验法与置信区间法提供的结果是完全一样的。（四）第一类错误和第二类错误如果有一个零假设在5％的显著性水平下被拒绝了，有可能这个拒绝是不正确的，这种错误被称为第一类错误，它发生的概率为5％。另外一种情况是，我们得到95％的一个置信区间，落在这个区间的零假设我们都不能拒绝，当我们接受一个零假设的时候也可能犯错误，因为回归系数的真实值可能是该区间内的另外一个值，这一错误被称为第二类错误。在选择显著性水平时人们面临抉择：降低犯第一类错误的概率就会增加犯第二类错误的概率。（五）P值P值是计量经济结果对应的精确的显著性水平。P值度量的是犯第一类错误的概率，即拒绝正确的零假设的概率。P值越大，错误地拒绝零假设的可能性就越大；p值越小，拒绝零假设时就越放心。现在许多统计软件都能计算各种统计量的p值，如Eviews、Stata等。第三节多变量线性回归模型的统计检验一、多变量模型的简单介绍考察下面这个方程：t=1,2,3….T(2.44)对y产生影响的解释变量共有k-1（x2t,x3t…,xkt）个，系数（β1’β2’…..βk）分别衡量了解释变量对因变量y的边际影响的程度。方程（2.44）的矩阵形式为这里：y是T×1矩阵，X是T×k矩阵，β是k×1矩阵，u是T×1矩阵（2.46）在多变量回归中残差向量为：（2.47）残差平方和为：（2.48）可以得到多变量回归系数的估计表达式（2.49）同样我们可以得到多变量回归模型残差的样本方差（2.50）参数的协方差矩阵（2.51）二、拟合优度检验在多变量模型中，我们想知道解释变量一起对因变量y变动的解释程度。我们将度量这个信息的量称为多元判定系数R2。在多变量模型中，下面这个等式也成立：TSS=ESS+RSS（2.52）其中，TSS为总离差平方和；ESS为回归平方和；RSS为残差平方和。与双变量模型类似，定义如下：即，R2是回归平方和与总离差平方和的比值；与双变量模型唯一不同的是，ESS值与多个解释变量有关。R2的值在0与1之间，越接近于1，说明估计的回归直线拟合得越好。（2.53）可以证明：（2.54）因此，（2.55）三、假设检验（一）、t检验在多元回归模型中，t统计量为：……（2.56）均服从自由度为（n-k）的t分布。下面的检验过程跟双变量线性回归模型的检验过程一样。（二）、F检验F检验的第一个用途是对所有的回归系数全为0的零假设的检验。第二个用途是用来检验有关部分回归系数的联合检验，就方法而言，两种用途是完全没有差别的，下面我们将以第二个用途为例，对F检验进行介绍。为了解联合检验是如何进行的，考虑如下多元回归模型：（2.57）这个模型称为无约束回归模型（unrestrictedregression），因为关于回归系数没有任何限制。假设我们想检验其中q个回归系数是否同时为零，为此改写公式（2.57），将所有变量分为两组，第一组包含k-q个变量（包括常项），第二组包含q个变量：（2.58）如果假定所有后q个系数都为零，即建立零假设：，则修正的模型将变为有约束回归模型（restrictedregression）（零系数条件）：（2.59）关于上述零假设的检验很简单。若从模型中去掉这q个变量，对有约束回归方程（2.59）进行估计的话，得到的误差平方和肯定会比相应的无约束回归方程的误差平方和大。如果零假设正确，去掉这q个变量对方程的解释能力影响不大。当然，零假设的检验依赖于限制条件的数目，即被设定为零的系数个数，以及无约束回归模型的自由度。检验的统计量为：（2.60）在这里，分子是误差平方和的增加与零假设所隐含的参数限制条件的个数之比；分母是模型的误差平方和与无条件模型的自由度之比。如果零假设为真，式（2.60）中的统计量将服从分子自由度为q，分母自由度为N-K的F分布。对回归系数的子集的F检验与对整个回归方程的F检验做法一样。选定显著性水平，比如1％或5％，然后将检验统计量的值与F分布的临界值进行比较。如果统计量的值大于临界值，我们拒绝零假设，认为这组变量在统计上是显著的。一般的原则是，必须对两个方程分别进行估计，以便正确地运用这种F检验。F检验与R2有密切的联系。回想,则，（2.61）两个统计量具有相同的因变量，因此将上面的两个方程代入（2.60），检验的统计量可以写成：（2.62）第四节预测一、预测的概念和类型（一）预测的概念金融计量学中，所谓预测就是根据金融经济变量的过去和现在的发展规律，借助计量模型对其未来的发展趋势和状况进行描述、分析，形成科学的假设和判断。（二）预测原理条件期望（conditionalexpectations），在t期Y的t+1期的条件期望值记作，它表示的是在所有已知的t期的信息的条件下，Y在t+1期的期望值。假定在t期，我们要对因变量Y的下一期（即t+1期）值进行预测，则记作。在t期对Y的下一期的所有预测值中，Y的条件期望值是最优的（即具有最小方差），因此，我们有：（2.65）（三）预测的类型：（1）无条件预测和有条件预测所谓无条件预测，是指预测模型中所有的解释变量的值都是已知的，在此条件下所进行的预测。所谓有条件预测，是指预测模型中某些解释变量的值是未知的，因此想要对被解释变量进行预测，必须首先预测解释变量的值。（2）样本内（in-sample）预测和样本外（out-of-sample）预测所谓样本内预测是指用全部观测值来估计模型，然后用估计得到的模型对其中的一部分观测值进行预测。样本外预测是指将全部观测值分为两部分，一部分用来估计模型，然后用估计得到的模型对另一部分数据进行预测。（3）事前预测和事后模拟顾名思义，事后模拟就是我们已经获得要预测的值的实际值，进行预测是为了评价预测模型的好坏。事前预测是我们在不知道因变量真实值的情况下对其的预测。（4）一步向前（one-step-ahead）预测和多步向前（multi-step-ahead）预测所谓一步向前预测，是指仅对下一期的变量值进行预测，例如在t期对t+1期的值进行预测，在t+1期对t+2期的值进行的预测等。多步向前预测则不仅是对下一期的值进行预测，也对更下期值进行预测，例如在t期对t+1期、t+2期、…t+r期的值进行预测。二、预测的评价标准１、平均预测误差平方和（meansquarederror，简记MSE）平均预测误差绝对值（meanabsoluteerror,简记MAE）。变量的MSE定义为：MSE=（2.66）其中―的预测值，―实际值，T―时段数变量的MAE定义如下：MAE=，变量的定义同前（2.67）可以看到，MSE和MAE度量的是误差的绝对大小，只能通过与该变量平均值的比较来判断误差的大小，误差越大，说明模型的预测效果越不理想。2、Theil不相等系数其定义为：（2.68）注意，U的分子就是MSE的平方根，而分母使得U总在0与1之间。如果U=0，则对所有的t，完全拟合；如果U=1，则模型的预测能力最差。因此，Theil不等系数度量的是误差的相对大小。Theil不等系数可以分解成如下有用的形式：其中分别是序列和的平均值和标准差，是它们的相关系数，即：（2.69）定义不相等比例如下：（2.70）（2.71）（2.72）偏误比例表示系统误差，因为它度量的是模拟序列与实际序列之间的偏离程度。方差比例表示的是模型中的变量重复其实际变化程度的能力。协方差比例度量的是非系统误差，即反映的是考虑了与平均值的离差之后剩下的误差。理想的不相等比例的分布是。比例分别称为U的偏误比例，方差比例，协方差比例。它们是将模型误差按特征来源分解的有效方法（）。第五节：模型选择一、“好”模型具有的特性1、节省性（parsimony）一个好的模型应在相对精确反应现实的基础上尽可能的简单。2、可识别性（identifiability）对于给定的一组数据，估计的参数要有唯一确定值。3、高拟合性（goodnessoffit）回归分析的基本思想是用模型中包含的变量来解释被解释变量的变化，因此解释能力的高低就成为衡量模型好坏的重要的标准。4、理论一致性（theoreticalconsistency）即使模型的拟合性很高，但是如果模型中某一变量系数的估计值符号与经济理论不符，那么这个模型就是失败的。5、预测能力（predictivepower）著名经济学家弗里德曼（M.Friedman）认为：“对假设（模型）的真实性唯一有效的检验就是将预测值与经验值相比较”。因此一个好的模型必须有对未来的较强的预测能力。二、用于预测的模型的选择因为R2将随着模型解释变量的增多而不断增加，按照此标准我们将不会得到最佳的预测模型。因此必须对由于解释变量增多而造成自由度丢失施加一个惩罚项，其中的一个标准就是：对自由度丢失惩罚更为严格的标准：Akaike的信息准则（Akaikeinformationcriterion,简记为AIC）和Schwarz的信息准则（Schwarzinformationcriterion,简记为SC）其中是方程随机误差项方差的估计值，k是解释变量的个数，T是样本容量。可以看到，AIC和SC的惩罚项、比更为严厉，而且相对来说SC标准对自由度的惩罚比AIC更为严厉。无论是AIC标准还是SC标准，从预测的角度来看，度量值越低，模型的预测会更好。GLM过程多元回归Procglm;modelsal2=edcocu1;run;回归平方和的解释见结果GLM过程多项式回归例如销售额与广告费及广告费用的平方datasales;inputyx@;Xsq=x**2;list;cards;10001010001250116000150016500020002090002500264000;procprint;procGLM;modely=xXsq;outputout=sap=predictr=residual;procprintdata=sa;run;GLM过程采用reg过程进行多元回归分析(同学们自学)格式Procregdata=名字ModelvarIdFreWeightAddDeleteDelobsn;Printall;Collinointpr;Outputout=new;By;GLM过程方差分析（ANOVA）单因素试验的方差分析在实际生活中，经常需要对几个总体进行分析比较，研究它们之间的差异以及产生这些差异的原因。这时我们就要采用一种称为方差分析的方法来解决。例如:例8.1某大型集团公司的销售主管想比较五种不同的推销方法有无显著的效果差异。在条件基本相同且无销售经验的人员中选取若干名，分成五组分别进行不同销售方法的培训。培训后观察他们在一个月内的销售额列于下表：GLM过程8.1单因素试验的方差分析在实际生活中，经常需要对几个总体进行分析比较，研究它们之间的差异以及产生这些差异的原因。这时我们就要采用一种称为方差分析的方法来解决。例8.1某大型集团公司的销售主管想比较五种不同的推销方法有无显著的效果差异。在条件基本相同且无销售经验的人员中选取若干名，分成五组分别进行不同销售方法的培训。培训后观察他们在一个月内的销售额列于下表：方法方法1方法2方法3方法4方法5销售额20.024.916.017.525.216.821.320.118.226.617.922.617.320.226.921.230.220.917.729.323.929.922.019.130.426.822.526.818.429.722.420.720.816.525.2在试验中，我们所要考察的指标称为试验指标。影响试验指标的条件称为因素，这里的因素主要是指可以人为控制的条件如原料、反映温度、化肥种类等等。因素所处的状态称为因素的水平。只有一个因素在改变的试验称为单因素试验，多于一个因素在改变的试验称为多因素试验。例8.1中的试验指标为销售额，销售方法为因素，5种不同的方法代表5种不同的水平。这是一项单因素试验，试验的目的是了解不同销售方法水平对销售额有无显著影响。一般地，试验指标记为X，对其有影响的因素记为A，设A有t个水平A1,A2,…,At，每个水平下的试验指标都是一个总体，共有t个总体，在水平Ai下进行了ni次独立试验，得到第i个总体的样本(X1i,X2i,…,Xnii)，(i=1,2,…,t)，总共进行了n=n1+n2+…+nt次试验。试验得到的结果可列成下表的形式：设在水平Ai下，试验指标Aji来自正态总体N(μi,σ2)，其中μi及σ2均未知。这里σ2与i无关，称为方差齐性。记εji=Xji-μi，则εji~N(μi,σ2)表示随机误差，这样单因素模型可表示为水平观察值A1A2…Ai…At试验指标X11X12…X1i…X1tX21X22…X2i…X2t………………Xn11Xn22…Xnii…Xntt样本总和T•1T•2…T•i…T•t样本均值……总体均值μ1μ2…μi…μt对于上述的模型，方差分析的主要任务是：(1)检验在各个水平下的均值是否相等。即检验假设：H0：μ1=μ2=…=μt，H1：μ1,μ2,…,μt不全相等；(2)作出未知参数μ1,μ2,…,μt,σ2的估计。记称为总平均称为因素A在第i个水平Ai下的主效应，它反映了在水平Ai下总体均值与总平均的差异，显然因此，检验假设：H0：μ1=μ2=…=μt，H1：μ1,μ2,…,μt不全相等；等价于H0：a1=a2=…=at=0，H1：a1,a2,…,at不全为零。原模型等价于方差分析的基本思想：如果被考察的因素对试验结果没有显著的影响，即各正态总体的均值是相等的，则试验数据的波动完全是由于随机误差引起的；反之，如果因素有明显的效应，即各正态总体的均值不全相等，则试验数据的波动除了随机误差的影响外，还包含有被考察因素的效应的影响。据此，需要寻找一个适当的统计量，来表示数据的波动程度。并且设法将这个统计量分解为两部分：一部分是纯粹由随机误差引起的，另一部分除了随机误差的影响外还包含着因素的效应的影响。然后将这两部分进行比较，如果后者明显地比前者大，就说明因素的效应是显著的。记为样本总平均为总平方和，反映出全部数据的总影响。为水平Ai下的样本均值，则ST可分解为=0所以ST=SE+SA这表明，我们将ST分解成SA与SE的和，其中SE反映随机误差对总体指标的影响程度，称为误差平方和（组内平方和）；SA反映了在A的不同水平下对总体指标的影响程度，它是由水平Ai以及随机误差引起的，称为因素的效应平方和（组间平方和）。记定理8.1设单因素试验方差分析模型SA与SE相互独立，且SE/σ2~χ2(n-t)；当H0：a1=a2=…=at=0成立时，SA/σ2~χ2(t-1)。从而其中fA,fE分别称为SA与SE的自由度，分别称为SA与SE的均方。由定理8.1可知，对于假设检验H0：a1=a2=…=at=0，H1：a1,a2,…,at不全为零选取统计量当H0为真时，F~F(t-1,n-t)对于给定的显著性水平α，有当F>F1-α(t-1,n-t)时，拒绝H0；当FF1-α(t-1,n-t)=F0.95(4,30)=2.69，拒绝H0，即不同的销售方法对销售额由显著的影响。单因素方差分析表方差来源平方和自由度均方F比销售方法377.93494.4810.46误差270.99309.03总和648.9334单因素模型中未知参数的估计：为σ2的无偏估计;为μ的无偏估计;为μi的无偏估计;如果拒绝H0即认为效应a1,a2,…,at显著时，可得效应ai的无偏估计i=1,2,…,t例8.3(续例8.1)求μ和ai的估计值。解如果假设检验的结果是拒绝H0，则可进一步找出因素A取哪一个水平时试验指标最佳。对不同水平作两两比较检验：H0*：μi=μj，(i≠j，i,j=1,2,…,t)取检验统计量H0*为真时，Tij~t(n-t)，对于给定的显著性水平α，|Tij|>t1-α/2(fE)时，拒绝原假设H0*。Sasprocanovadatatest;dotime=1to4;dofactory='A','B','C','D';don=1to3;inputnumber@@;output;end;end;end;cards;727469616165626570857661675262605559646564677260576672724343636672567592575678606358617968738671;run;procprintdata=testvartimenfactorynumber;procsortdata=test;byfactorynumber;run;procmeansdata=testmeanstdrangesum;byfactory;varnumber;outputout=otestmean=std=snrange=sum=;run;procanova;classfactory;modelnumber=factory;run;Sasprocanovadataoneanova;doi=1to7;domethod='A','B','C','D','E';inputy@@;output;end;end;cards;20.024.916.017.525.216.821.320.118.226.617.922.617.320.226.921.230.220.917.729.323.929.922.019.130.426.822.526.818.429.722.420.720.816.525.2;run;procprintdata=oneanova;run;procsort;bymethod;run;procanova;classmethod;modely=method;run;Sasprocanovadataoneanova;doi=1to7;domethod='A','B','C','D','E';inputy@@;output;end;end;cards;20.024.916.017.525.216.821.320.118.226.617.922.617.320.226.921.230.220.917.729.323.929.922.019.130.426.822.526.818.429.722.420.720.8

                    本文档为【SASGLM过程PPT演示文稿】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

SASGLM过程PPT演示文稿

你可能还喜欢