SAS学习系列36.判别分析报告

SAS学习系列36.判别分析报告实用36.判别分析（一）基本原理判别分析，是用以判别个体所属类的一种统计方法。其原理是根据已掌握的一批分类明确的样品，建立一个较好的判别函数，使得用该判别函数进行判别时错判事例最少，进而能用此判别函数对给定的一个新样品判别它来自哪个总体。判别分析方法通常要给出一个判别指标（判别函数），同时还要指定一种判别规则。一、距离判别法未知总体的样品x离哪个总体的距离最近，就判断它属于哪个总体。1.对于两个正态总体G1,G2距离选用马氏（Mahalanobis）距离：2T-1d(x,G1)=(x-μ1)∑1(x-μ1)2T-1...

实用36.判别分析（一）基本原理判别分析，是用以判别个体所属类的一种统计方法。其原理是根据已掌握的一批分类明确的样品，建立一个较好的判别函数，使得用该判别函数进行判别时错判事例最少，进而能用此判别函数对给定的一个新样品判别它来自哪个总体。判别分析方法通常要给出一个判别指标（判别函数），同时还要指定一种判别规则。一、距离判别法未知总体的样品x离哪个总体的距离最近，就判断它属于哪个总体。1.对于两个正态总体G1,G2距离选用马氏（Mahalanobis）距离：2T-1d(x,G1)=(x-μ1)∑1(x-μ1)2T-1d(x,G2)=(x-μ2)∑2(x-μ2)其中，μ1,μ2,∑1,∑2分别为总体G1,G22的均值和协差矩阵。令22W(x)=d(x,G1)-d(x,G2)称为判别函数，若∑1=∑2时，W(x)是线性函数，此时称为线性判别；若∑1≠∑2，W(x)是二次函数。文案实用2.多总体情况设有m个总体：G1,⋯,Gm，其均值、协差阵分别为μi,∑i.对给定的样品x，按距离最近的准则对x进行判别归类：2首先计算样品x到m个总体的马氏距离di(x),然后进行比较，22把x判归距离最小的那个总体，即若dh(x)=min{di(x)|i=1,⋯,m}，则x∈Gh.二、Fisher线性函数判别法为了方便使用，需要寻找尽量简单的判别函数，其中在Fisher准则下的线性判别函数就是只利用总体的一、二阶矩就可求得的判别函数。图1Fisher线性判别分析示意图下面以两个总体为例来说明Fisher判别的思想。设有两个总体G1、G2，其均值分别为1和2，协方差阵分别1和2，T并假定1=2=，考虑线性组合：y=Lx。通过寻求合适的L向量，文案实用使得来自两个总体的数据间的距离较大，而来自同一个总体数据间的–1差异较小。为此，可以证明，当选L=c(1–2)，其中c0时，所得的投影即满足要求。从而称c=1时的线性函数：TT–1y=Lx=(1–2)x为Fisher线性判别函数。其判别规则为：其中，m为两个总体均值在投影方向上的中点，即三、贝叶斯判别法设m个总体G1,⋯,Gm，其分布密度分别为f1(x),⋯,fm(x)，各自的先验概率（可以根据经验事先给出或估出）分别为q1,⋯,qm，显然当抽取了一个未知总体的样品x，要判断它属于哪个总体，可用著名的贝叶斯公式计算x属于第j个总体的后验概率：若则判断x属于第h个总体。文案实用或者计算按先验概率加权的误判平均损失：其中，C(j|i)为假定本来属于Gi的样品被判为属于Gj时造成的损失，当然C(i|i)=0，C(j|i)0.再比较这m个误判平均损失的h1(x),⋯,hm(x)的大小，选取其中最小的，就可以判定样品x来自该总体。在实际问题中，错判的损失可以给出定性分析，但很难用数值来表示，但应用贝叶斯判别法时，要求定量给出C(j|i)，C(j|i)的赋值。通常：根据经验人为赋值；假定各种错判的损失都相等。错判概率当样品xGi，用判别法判别时，把x判给Gj(i≠j)，出现错判。用P(j|i)）表示实属Gi的样品错判为Gj的概率。广义平方距离判别法在正态总体的假定下，按贝叶斯判别的思想，在错判造成的损失认为相等的情况下得到的判别函数，其实就是马氏距离判别法在考虑先验概率及协方差阵是否相等情况下的推广，故在SAS的DISCRIM过程中称为广义平方距离判别法。四、逐步判别法所有变量中，有的变量对区分k个总体的判别能力可能很强，有的可文案实用能很弱。如果不加区别地用全部变量来建立判别函数，则必增加大量的计算，还可能因为变量间的相关性引起计算上的困难(病态或退化等)及计算精度的降低。另一方面由于一些对区分k个总体的判别能力很小的变量的引入，产生干扰，致使建立的判别函数不稳定，反而影响判别效果，因此自然提出一个变量的选择问题。即如何从m个变量中挑选出对区分k个总体有显著判别能力的变量，来建立判别函数，用以判别归类。1.各变量判别能力的检验筛选判别变量和做逐步判别，都需要检验各变量的判别能力。若第i个分量间没有显著差异时，说明相应的变量Xi对判别分类不起作用，应该剔除。变量判别能力的度量通常采用删去该变量后考察判别能力的变化，即考察该变量对区分k个类是否能提供更多的附加信息，然后由附加信息构造F统计量进行检验。利用F统计量对假设（H0：第i个变量在k个总体中的均值相等)作统计检验。若否定H0，表示变量Xi对区分k个总体的判别能力是显著的(在显著水平α下)。否则，变量Xi对区分k个总体的判别能力不能提供附加信息，这个变量应剔除。2.基本思想逐个引入变量，每次把一个判别能力最强的变量引入判别式，每引入一个新变量，对判别式中的老变量逐个进行检验，如其判别能力因新文案实用变量的引入而变得不显著，应把它从判别式中剔除。这种通过逐步筛选变量使得建立的判别函数中仅保留判别能力显著的变量的方法，就是逐步判别法。3.基本步骤（1）逐步筛选变量：根据各变量对区分k个总体的判别能力的大小来筛选变量。SAS中的STEPDISC过程专用于筛选变量子集。该过程利用向前选入、向后剔除或逐步筛选的方法来选择区分k个总体的最佳变量子集。（2）判别归类：对已选出变量子集，使用前文的某种判别方法对样品进行判别归类。（二）判别分析的SAS实现一、PROCSTEPDISC过程步（逐步判别分析）针对具有一个分类变量和若干数值型变量的数据集，STEPDISC过程执行逐步判别分析：从指定的指标变量（VAR变量）中筛选出一组变量，以用于随后的判别分析。逐步判别分析要求指标变量在各组内服从多元正态分布，并且具有相同的协方差矩阵。基本语法：PROCSTEPDISCdata=数据集<可选项>;CLASS变量;文案实用BY变量;VAR变量列表;FREQ变量;WEIGHT变量;可选项：MAXSTEP=n——指定最大步数；METHOD=BACKWARD/FORWARD/STEPWISE——指定筛选方法：向前选入、向后剔除、逐步筛选；SHORT——只输出汇总结果（压缩每一步的输出）；SLE/SLENTRY=p——指定向“向前选入法”的显著水平（默认p=0.15）；SLS/SLSTAY=p——指定向“后退剔除法”的显著水平（默认p=0.15）；CLASS语句和BY语句——必不可少，指定分组变量（区别是BY语句需要事先对BY变量排序）；二、PROCDISCRIM过程步（判别分析）DISCRIM过程根据一个分类变量和若干数值变量的数据计算出各种判别函数(判别准则)，根据这个判别函数，再将该批数据或其他数据中的观测分别归入已知类别中去。DISCRIM过程用以获得判别准则的数据称之为训练数据集。若假设每个组内样本的分布为多元正态分布，基于多元正态分布文案实用理论的参数法将导出一个线性或二次的判别函数；否则，将采用不基于任何分布的假定的非参数方法（核密度法和K最邻近法），来估计类别的密度从而实现分类的功能。基本语法：PROCDISCRIMdata=训练数据集testdata=数据集<可选项>;CLASS变量;BY变量;FREQ变量;ID变量;PRIORS概率表;TESTCLASS变量;TESTFREQ变量;TESTID变量;VAR变量列表;WEIGHT变量;可选项：outstat=数据集名——生成数据集，包含各种统计量（均值，标准偏差和相关）；out/outcross=数据集名——生成(/交叉)数据集，包括来自训练数据集的所有数据，后验概率和每个观测通过重替换被分入的类（当canonical选项指定时，该数据集还包含典型变量得分的新变量）；outd=数据集名——生成一个包含来自训练数据集的所有数据和文案实用每一观测的组密度估计的数据集；注：前面命令若加test前缀，则输出testdata数据集生成的相关数据集。method＝normal/npar——指定生成分类准则的方法，默认为normal表示基于类内服从多元正态分布，并生成线性或二次判别函数；npar表示采用非参数方法；pool=no/test/yes——确定平方距离的度量，是以合并协方差阵还是组内协方差阵为基础，默认pool=yes采用合并协方差阵得出线性判别函数；当pool＝no时，采用单个组内协方差阵得出二次判别函数；当method=normal时，pool=test要求对组内协方差阵的齐性的似然比检验进行Bartlett修正，当不加可选项short时，线性判别函数会直接给出，而二次型判别函数需通过建立输出数据集方式获得；slpool=p——指定齐性检验的显著水平（默认p=0.1，只用于pool=test时）；threshold=p——指定分类中可以接受的最小后验概率p值，默认p=0，若某观察样品归于某组的最大后验概率值小于该p值，则将该样品归入其它组；anova和manova选项——分别要求输出对各类的单个变量与多个变量的均数、均值向量之间进行一元或多元方差分析的结果，其作用就是检验判别函数的判别效果；listerr和crosslisterr选项——listerr表示输出由后验概率产生错误分类的样品点的有关信息，crosslisterr表示要求以交叉表的形式输出文案实用实际类别与分类结果之间一致和不一致的有关信息；var语句——指定用于进行判别分析的变量子集，建立起关于此变量子集的判别函数表达式；priors语句——指定先验概率：priorsequal（默认），表示各类先验概率相等；priorsproportional,表示各类先验概率等于各类样本频率；priorsa=p1b=p2c=p3；其中a、b和c是分类标志，p1、p2和p3是先验概率，p1+p2+p3=1.三、PROCCANDISC过程步（典型判别分析）该过程步计算平方马氏距离并做单变量与多变量的单向方差分析并且计算类均值间基于合并类内协方差阵的平方距离。该过程产生包括典型系数和典型变量得分的输出数据集。典型判别分析类似于主成份分析和典型相关有关的降维方法。给定若干组带有几个定量变量的观察，典型判别分析得出与组有最大可能多重相关的变量的线性组合。最大的多重相关叫做第一典型相关。线性组合的系数称为典型系数或典型权重。线性组合定义的变量称为第一典型变量或典型成份。第二典型相关由与第一典型变量无关的线性组合得到。以此类推。CANDISC过程得出的典型变量，如同主成分概括全变差一样来概括类间变差。基本步骤：（1）变换变量使合并的类内协方差阵为单位阵；（2）计算变换后的变量的类均值；文案实用（3）对均值做主成份分析，以每一类中的观察个数为权重；（4）特征值等于每个主成份方向上的类间偏差与类内偏差之比；（5）把主成份变量反变换到原始变量的空间，获得典型变量。典型变量间不相关，但典型系数并不正交。因此，典型变量并不代表原始变量空间中的正交方向。对每一个典型相关，CANDISC检验总体中该相关及更小的典型相关为零的假设。采用F近似值比一般2的近似值能给出更好的小样本结果。每一类内变量应该具有近似的多元正态分布，为了概率水平有效，方差矩阵应该是共同的。第一典型相关大于等于组与任何一个原始变量间的多重相关。该过程产生一个包含每一典型变量得分的输出数据集。可以利用print过程列出这些值，还可行以用plot过程作出典型变量对的散点图以助于直观地解释组的不同。另一个输出数据集包含由factor过程利用旋转算法得到的典型系数。基本语法：PROCCANDISCdata=数据集<可选项>；CLASS变量；BY变量；FREQ变量；VAR变量列表；WEIGHT变量；文案实用可选项：out=数据集名——生成包含原始数据和典型变量得分的数据集；outstat=数据集名——生成一个包含各种统计量的数据集；ncan＝n——指定将被计算的典型变量的个数（≤变量个数）；prefix＝前缀名——为命名典型变量指定前缀；singular=p——指定判别全样本相关阵和合并类内协方差阵奇异的标准（０

                    本文档为【SAS学习系列36.判别分析报告】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

SAS学习系列36.判别分析报告

你可能还喜欢