第八章判别分析

第八章判别分析判别分析DiscriminantAnalysis判别分析的相关例子（1）在经济中的应用：中小企业的破产模型为了研究中小企业的破产模型，选定4个经济指标： X1总负债率（现金收益/总负债） X2收益性指标（纯收入/总财产） X3短期支付能力（流动资产/流动负债） X4生产效率性指标（流动资产/纯销售额）对17个破产企业（1类）和21个正常运行企业（2类）进行了调查，得关于上述四个指标的资料现有8个未知类型的企业的四个经济指标的数据，判断其属于破产企业一类还是正常运行企业一类？判别分析的相关例子（2）在天气预报中的...

判别分析DiscriminantAnalysis判别分析的相关例子（1）在经济中的应用：中小企业的破产模型为了研究中小企业的破产模型，选定4个经济指标： X1总负债率（现金收益/总负债） X2收益性指标（纯收入/总财产） X3短期支付能力（流动资产/流动负债） X4生产效率性指标（流动资产/纯销售额）对17个破产企业（1类）和21个正常运行企业（2类）进行了调查，得关于上述四个指标的资料现有8个未知类型的企业的四个经济指标的数据，判断其属于破产企业一类还是正常运行企业一类？判别分析的相关例子（2）在天气预报中的应用根据经验，下列两个因素是预报明天下雨与不下雨的重要因素：今天与昨天的湿度差x1今天的压温差（气压与温度之差）x2 今测得x1与x2，应预报明天下雨还是预报明天不下雨？判别分析的其他例子预测新产品的成功或失败判断一个人是否患有某种疾病按职业兴趣对学生分组确定某人信用风险的种类……前言判别分析是一种进行统计判别和分组的技术手段。判别分析与聚类分析的不同之处在于判别分析带有“预测”意义。判别分析的目的就是从现有已知类别的样本数据中训练出一个判别函数，以后再有未知类别的数据进入，就利用建立的函数来判断其类别（判别规则）。各类判别问题的前提有所不同，进行划分或寻找判别函数的准则也可以不同，判别分析的方法有：距离判别，费歇判别，贝叶斯判别等。判别分析与聚类分析的联系与区别都要求对样本进行分类，但分析的内容和要求不一样聚类分析事先并不知道存在什么类别，完全按照反映对象特征的数据把对象进行分类判别分析是在事先有了某种分类标准之后，判定一个新的研究对象应该归属到哪一类别某些思想和方法相同两者往往结合起来使用当分类不清楚时，可以先用聚类分析对原有样品进行分类，然后再用判别分析建立判别函数以对新样品进行归类例8.1 根据经验，今天与昨天的湿度差x1及今天的压温差（气压与温度之差）x2是预报明天下雨或不下雨的两个重要因素。今测得x1=8.1，x2=2.0，试问应预报明天下雨还是预报明天不下雨？例8.1X120100-10-20X220100-10-20新样本点U(x1,x2)D2---非雨区D1---雨区这是一个最简单的判别分析问题由判别因子x1和x2：将二维样本空间划分成两个互不相交的区域D1和D2，根据新样品判别因子的观察值，若它落在区域Di，就判该样品属于i类构造一个判别函数u(x1,x2)，然后根据新样品的函数值判断其属于哪一类数学模型（概率论的角度）模型：G个总体：ξ1,ξ2,…,ξg,…,ξG其中ξg是p维随机变量对应的分布函数Fg(x1,x2,…,xp)g=1,2,…,G(x1,x2,…,xp)是表征总体特性的p维随机变量的取值，在判别分析中称之为判别因子。现有一个新的样本点x=(x1,x2,…,xp)’要判断此样本点是属于哪一个总体的？假如能掌握每一个总体ξg的分布规律或某些数字特征，则这类问题的解决是不难的实际处理方法在每一个总体中取一个容量为ng的样本(g=1,2,…,G)，然后根据已知类别的样本所提供的信息，判断新的样本点属于哪一类一般判别分析的模型需要判别的类型有G类，起判别作用的因子有p个：(x1,x2,…,xp),从第g类中取得ng个样品，其第i个样品的p个判别因子的取值为：xi(g)=(xi1(g),xi2(g),…,xip(g))′ 对p维空间作出一个划分：D1,D2,…,DG互不相交或者构造一个判别函数：u(x1,x2,…,xp) 以u(x1,x2,…,xp)作为新样品所属类型的判断常用的判别方法距离判别 Fisher判别 Bayes判别逐步判别距离判别距离判别判别准则根据各类的ng个样本，求出每类的中心坐标再根据新样品离开每个类中心的距离远近作出它属于哪一类的判断(1)两类距离判别：设有两个总体：ξ1,ξ2d(x,ξg)的计算选用马氏距离d2(x,ξg)=(x-μg)’∑-1(x-μg) 此距离表示x与随机向量ξg（x到总体ξg的距离）的距离，即x到ξg的均值μg的马氏距离。判别规则判别函数：为线性判别函数，其中a称为判别系数利用判别函数进行判别判别规则为：若u(x)＞0，则判x∈ξ1若u(x)＜0，则判x∈ξ2利用u(x)将样本空间RP进行划分划分当μ1、μ2、∑未知(2)两类距离判别：μ1μ2μ*p＞1时可按多类判别中G=2时的特殊情况处理注意要点（1）μ1μ2只有当两个总体的均值有显著差异时判别分析才有意义注意要点（2）为减少误判的可能性，有时可划定一个待判区域多类距离判别：设有多个总体：ξ1,ξ2,…,ξG 判别规则：若d(x,ξg)=mind(x,ξi)则判x∈ξg 选用马氏距离d2(x,ξg)=(x-μg)’∑-1(x-μg)当μg、∑g(g=1,2,…,G)未知多类距离判别：∑1=∑2=…=∑G距离判别的特点距离判别只要求知道总体的数字特征，不涉及总体的分布函数，当参数和协方差未知时，就用样本的均值和协方差矩阵来估计。距离判别方法简单实用，但没有考虑到每个总体出现的机会大小，即先验概率，没有考虑到错判的损失。Fisher判别Fisher判别Fisher判别是根据方差分析的思想建立起来的，即按类内方差尽量小，类间方差尽量大的准则来求判别函数的。Fisher判别的基本思想是投影，即将原来在p维空间的自变量组合投影到维度较低的D维空间去，然后在D维空间中再进行分类。投影的原则是使得每一类内的离差尽可能小，而不同类间投影的离差尽可能大。对总体的分布不做任何要求Fisher判别的图示两个总体的Fisher判别法：旋转坐标轴至总体单位尽可能分开的方向，此时分类变量被简化为一个设有G个总体：ξ1,ξ2,…,ξG对任给一个样品x，考虑一个判别函数u(x)，记Fisher判别准则：寻找u(x)：使类内偏差平方和W0最小，类间偏差平方和B0最大即要找u(x)，使达到最大判别规则：对新样品x,若｜u(x)-ui｜=min｜u(x)-ug｜则判x∈ξiu(x)可以是x的任意函数，通常只考虑线性判别函数：u(x)=a/x=a1x1+a2x2+…+apxp重点转为线性判别函数的系数a的确定u(x)的线性函数亦为Fisher准则下的判别函数线性判别函数的系数a确定一般地，总体的μ，∑未知，可以用样本来估计将B0、W0分别改用样本的判别函数值的组间和组内离差平方和表示：在a′Wa=1的条件下，求a，使I达到最大根据线性代数知识，a为｜B-λW｜=0的最大特征根所对应的特征向量，λ为最大特征根。两类Fisher判别假设建立的判别函数为u(x)=a’x=a1x1+a2x2+…+apxp 假设有两个总体ξ1、ξ2，分别从两个总体中抽取n1和n2个样品，每个样品观测p个指标将属于不同总体的样品观测值代入判别函数中分别对上面两式左右相加，再除以样品个数，可得两个总体的重心: 最佳的线性判别函数应该是：两个重心的距离越大越好，两个组内的离差平方和越小越好。综上，也就是要求越大越好利用微积分求极值的必要条件可求出使I达到最大值的a1,a2,…,ap.当然，也可以限定在F=1的条件下，求出使I达到最大值的a1,a2,…,ap定义临界值：不妨假设如果由原始数据求得判别函数得分为u0，对与一个样品代入判别函数中，若u0>u*，则判给第一类，否则判给第二类。两类Fisher判别分析步骤建立判别函数（关键求判别系数）计算判别临界值，根据判别准则对新样品判别分类检验判别效果即检验两个总体的均值向量是否相等因为判别分析是假设两组样品取自不同总体，如果两个总体的均值向量在统计上差异不显著，作判别分析的意义就不大。判别效果的检验检验的前提要求两个总体协方差阵相同且总体服从正态分布检验的假设形式检验统计量检验的决策规则给定检验水平α，查F分布表，确定临界值Fα。若F>Fα，则H0被否定，认为判别有效；否则认为判别无效。*对比两总体均值是否相等的检验统计量多个总体的Fisher判别法Fisher判别法实际上是致力于寻找一个或几个最能反映组和组之间差异的投影方向，即寻找线性判别函数：设有k个总体ξ1,ξ2,…,ξk，分别有均值向量μ1,μ2，…,μk,和协方差阵σ1,σ2…,σk,分别各总体中得到样品：如果组数k太大，讨论的指标太多，则一个判别函数是不够的，这时需要寻找第二个，甚至第三个线性判别函数，设需要m(m<k)个。假设a’Wa=1的条件下，｜B-λW｜=0的各特征根依次为：，各特征根对应的特征向量则分别构成第一、二，…,m线性判别函数的系数。关于需要几个判别函数的问题，需要累计判别效率达到85％以上，即判别准则以m个线性判别函数得到的函数值为新的变量，再进行距离判别。设ui(x)为第i（i=1,2,…,m）个线性判别函数贝叶斯（Bayes）判别Bayes统计思想假定对研究对象已有一定的认识，而这种认识常常用先验概率分布描述；然后取得一个样本，用样本提供的信息再修正已有的认识，从而可以得到后验概率分布；各种统计推断都通过后验概率分布进行。最大后验准则办公室新来了一个雇员小王，小王是好人还是坏人大家都在猜测。按人们主观意识，一个人是好人或坏人的概率均为0.5。坏人总是要做坏事，好人总是做好事，偶尔也会做一件坏事，一般好人做好事的概率为0.9，坏人做好事的概率为0.2，一天，小王做了一件好事，小王是好人的概率有多大，你现在把小王判为何种人？Bayes判别的基本思想是认为所有G个类别都是空间中互斥的子域，每个观测都是空间中的一个点。在考虑先验概率的前提下，利用Bayes公式按照一定准则构造一个判别函数，分别计算该样品落入各个子域的概率，所有概率中最大的一类就被认为是该样品所属的类别。 Bayes判别准则：使错判造成的损失为最小Bayes判别错判损失如何定义？设有G个总体：ξ1,ξ2,…,ξg,…,ξG其中ξg的p维分布密度函数ξg～fg(x1,x2,…,xp)≡fg(x)g=1,2,…,G设D1,D2,…,DG是p维空间Rp的一个划分：D1,D2,…,DG互不相容D1∪D2∪…∪DG=Rp对新的样品x的判别规则：若x∈Dg，则判x∈ξg,g=1,2,…,G划分损失函数以L(h｜g)表示样品来自第g个总体，而被错判为第h个总体所造成的损失h=gh≠g错判概率发生错判的概率先验概率第g个总体出现的先验概率为qg，g=1,2,…,G平均损失利用损失函数、错判概率、先验概率，可以计算:通过划分D1,D2,…,DG，按判别规则进行判别而产生的平均损失Bayes解所谓Bayes判别法：就是要选择D1,D2,…,DG，使平均损失I(D1,D2,…,DG)达到最小，常称此解为Bayes解最小Bayes解的简化引入Eh(x) 要求Bayes解，只要求得使Eh(x)为最小的h值取定样品x下，使Eh(x)为最小的Bayes解，也就是使后验平均损失最小的Bayes解L(h｜g)的简化各种错判的损失一样，都定义为1Eh(x)的简化求Eh(x)的最小值等价于求qhfh(x)的最大值相当于求后验概率的最大值Bayes判别规则若qhfh(x)=maxqgfg(x)，则:判x∈ξh,h=1,2,…,G两类判别假定ξg～Np(μg,∑),g=1,2，对新样品x：若q1f1(x)＞q2f2(x)，则:判x∈ξ1若q1f1(x)＜q2f2(x)，则:判x∈ξ2若q1f1(x)=q2f2(x)，则:任判等价于若令又等价于多类判别假定ξg～Np(μg,∑),g=1,2,…,G 两边取对数，得判别函数当μg,∑未知时，取样本作估计，则判别函数为：多类判别规则若uh(x)=maxug(x)，则判x∈ξh,h=1,2,…,G先验概率的常用取法1.先验概率取样品出现的频率：qg=ng／n,g=1,2,…,G2.认为总体以等概率出现，即qg=1／G,g=1,2,…,G距离判别、Fisher判别与Bayes判别当总体为等协方差的正态分布，且先验概率qg相等时，Bayes判别即为距离判别在具有等协方差的两个正态总体的判别问题中，Bayes判别函数也是Fisher判别函数逐步判别变量的选择和逐步判别变量的选择是判别分析中的一个重要的问题，变量选择是否恰当，是判别分析效果优劣的关键。如果在某个判别问题中，将起最重要的变量忽略了，相应的判别函数的效果一定不好。如果判别变量个数太多，计算量必然大，会影响估计的精度。特别当引入了一些判别能力不强的变量时，还会严重地影响判别的效果。逐步判别的步骤（1）第一步：通过计算单变量的Λ统计量（组内离差平方和与总离差平方和的比），逐步选择判别变量 Λ统计量最小者首先进入模型。逐步判别的步骤（2）第二步：分别计算未被选中的其它变量与选中变量x1的Λ统计量统计量Λ1i的值最小者与x1搭配进入模型。逐步判别的步骤（3）第三步：类推假设已经有q＋1个变量进入了模型，要考虑较早选入模型的变量的重要性是否有较大的变化，应及时将其从模型中剔除。其原则与引入相同。但删除统计量Λ的值最大者。第四步：进行判别分析。判别分析的主要程序1.选择变量和判别分析的目的密切相关反映要判类变量的特征在不同研究对象上的值有明显的差异 2.确定分析样本和验证样本将样本分成两部分，一部分用于确定判别函数，另一部分用于检查判别的效果。如果样本量很大，可将样本平均地或随机地分成两部分判别分析的主要程序3.用逐步判别法筛选变量在第一步所选的变量可能在类间无差异，应该将对判别分析无贡献的变量剔除 4.估计判别函数选择某种方法建立判别规则，有距离判别、贝叶斯判别和费歇（Fisher）判别法。判别分析的主要程序5.检查判别的效果计算错判比率和正确判定的比率。将判别函数用于验证样本，通过验证样本的错判比率和正确判定的比率来确定判别的效果。所谓错判，就是把原来是第一类的样本判给了第二类。对于正确判定的比率应该达到多少才能接受，并没有严格的规则。检查判别效果的方法自身验证将用来建立判别函数的各样品代入判别函数中，看看错判情况是否严重。自身验证效果好，并不能说明该函数用来判别外部数据的效果也好，实用价值不是很大。样本二分法将样本随机分为两部分：分析样本和验证样本，一般比例2：1，要求样本容量较大，判别函数不稳定交互验证（Crossvalidation）在建立判别函数时依次去掉一例，然后用建立起的判别函数对该例进行判别，比较有效地避免异常点的干扰*对比两总体均值是否相等的检验统计量

                    本文档为【第八章 判别分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

第八章 判别分析

你可能还喜欢

第八章判别分析