首页 《SPSS回归分析》PPT课件

《SPSS回归分析》PPT课件

举报
开通vip

《SPSS回归分析》PPT课件第八章回归分析主要内容8.1回归分析概述8.2线性回归分析8.3曲线估计8.4二元Logistic回归分析8.1回归分析概述(1)确定性关系与非确定性关系变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。(2)回归分析基本概念回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。我们不仅可以利用概率统计知识,对这个经验公式的有效性进行判定,同时还可以利用这个经验公式,根据...

《SPSS回归分析》PPT课件
第八章回归 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 主要内容8.1回归分析概述8.2线性回归分析8.3曲线估计8.4二元Logistic回归分析8.1回归分析概述(1)确定性关系与非确定性关系变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 称为回归分析。(2)回归分析基本概念回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。我们不仅可以利用概率统计知识,对这个经验公式的有效性进行判定,同时还可以利用这个经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。(3)回归分析的一般步骤第1步确定回归方程中的因变量和自变量。第2步确定回归模型。第3步建立回归方程。第4步对回归方程进行各种检验。拟合优度检验回归方程的显著性检验回归系数的显著性检验第5步利用回归方程进行预测。8.1回归分析概述主要内容8.1回归分析概述8.2线性回归分析8.3曲线估计8.4二元Logistic回归分析8.2线性回归分析8.2.1基本概念及统计原理1.基本概念线性回归假设因变量与自变量之间为线性关系,用一定的线性回归模型来拟合因变量和自变量的数据,并通过确定模型参数来得到回归方程。根据自变量的多少,线性回归可有不同的划分。当自变量只有一个时,称为一元线性回归,当自变量有多个时,称为多元线性回归。8.2线性回归分析(2)统计原理一元回归方程和多元回归方程一元线性和多元线性回归分析的核心任务就是估计其中的参数。8.2线性回归分析8.2.2SPSS实例分析【例8-1】现有1992年-2006年国家财政收入和国内生产总值的数据如下表所示,请研究国家财政收入和国内生产总值之间的线性关系。年份国内生产总值(单位:亿元)财政收入(单位:亿元)年份国内生产总值(单位:亿元)财政收入(单位:亿元)199226923.53483.37200099214.613395.23199335333.94348.952001109655.216386.04199448197.95218.102002120332.718903.64199560793.76242.202003135822.821715.25199671176.67407.992004159878.326396.47199778973.08651.142005183867.931649.29199884402.39875.952006210871.038760.20199989677.111444.088.2线性回归分析第1步分析:这是一个因变量和一个自变量之间的问题,故应该考虑用一元线性回归解决。第2步数据组织:定义三个变量,分别为“year”(年份)、“x”(国内生产总值)、“y”(财政收入)。第3步作散点图,观察两个变量的相关性:依次选择菜单“图形→旧对话框→散点/点状→简单分布”,并将“国内生产总值”作为x轴,“财政收入”作为y轴,得到如下所示图形。可以看出两变量具有较强的线性关系,可以用一元线性回归来拟合两变量。8.2线性回归分析第4步一元线性回归分析设置:选择菜单“分析→回归→线性”,打开“线性回归”对话框,将变量“财政收入”作为因变量,“国内生产总值”作为自变量。打开“统计量”对话框,选上“估计”和“模型拟合度”。单击“绘制(T)…”按钮,打开“线性回归:图”对话框,选用DEPENDENT作为y轴,*ZPRED为x轴作图。并且选择“直方图”和“正态概率图”作相应的保存选项设置,如预测值、残差和距离等。8.2线性回归分析第5步主要结果及分析:变量输入和移去表表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。可以看出,进入模型的自变量为“国内生产总值”。模型综述表R=0.989,说明自变量与因变量之间的相关性很强。R方(R2)=0.979,说明自变量“国内生产总值”可以解释因变量“财政收入”的97.9%的差异性。模型输入的变量移去的变量方法1国内生产总值.输入a.已输入所有请求的变量。b.因变量:财政收入。模型RR方调整R方 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 估计的误差1.989a.979.9771621.66312a.预测变量:(常量),国内生产总值。b.因变量:财政收入。8.2线性回归分析方差分析表表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。方差来源有回归、残差。从表中可以看出,F统计量的观测值为592.25,显著性概率为0.000,即检验假设“H0:回归系数B=0”成立的概率为0.000,从而应拒绝原假设,说明因变量和自变量的线性关系是非常显著的,可建立线性模型。模型平方和df均方FSig.1回归1.557E911.557E9592.250残差34187286.770132629791.290总计1.592E914a.预测变量:(常量),国内生产总值。b.因变量:财政收入。8.2线性回归分析回归系数表表中显示回归模型的常数项、非标准化的回归系数B值及其标准误差、标准化的回归系数值、统计量t值以及显著性水平(Sig.)。从表中可看出,回归模型的常数项为-4993.281,自变量“国内生产总值”的回归系数为0.197。因此,可以得出回归方程:财政收入=-4993.281+0.197×国内生产总值。回归系数的显著性水平为0.000,明显小于0.05,故应拒绝T检验的原假设,这也说明了回归系数的显著性,说明建立线性模型是恰当的。模型非标准化系数标准系数tSig.B标准误差试用版1(常量)-4993.281919.356-5.431.000国内生产总值.197.008.98924.336.000主要内容8.1回归分析概述8.2线性回归分析8.3曲线估计8.4二元Logistic回归分析8.3曲线估计8.3.1基本概念及统计原理(1)基本概念曲线估计(曲线拟合、曲线回归)则是研究两变量间非线性关系的一种方法,选定一种用方程表达的曲线,使得实际数据与理论数据之间的差异尽可能地小。如果曲线选择得好,那么可以揭示因变量与自变量的内在关系,并对因变量的预测有一定的意义。在曲线估计中,需要解决两个问题:一是选用哪种理论模型,即用哪种方程来拟合观测值;二是当模型确定后,如何选择合适的参数,使得理论数据和实际数据的差异最小。8.3曲线估计(2)统计原理在曲线估计中,有很多的数学模型,选用哪一种形式的回归方程才能最好地表示出一种曲线的关系往往不是一个简单的问题,可以用数学方程来表示的各种曲线的数目几乎是没有限量的。在可能的方程之间,以吻合度而论,也许存在着许多吻合得同样好的曲线方程。因此,在对曲线的形式的选择上,对采取什么形式需要有一定的理论,这些理论是由问题本质决定的。(3)分析步骤首先,在不能明确究竟哪种模型更接近样本数据时,可在上述多种可选择的模型中选择几种模型;其次,SPSS自动完成模型参数的估计,并输出回归方程显著性检验的F值和概率p值、决定系数R2等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。8.3曲线估计8.3.2SPSS实例分析【例8-3】表8.16是1989~2001年国家保费收入与国内生产总值的数据,试研究保费收入与国内生产总值的关系。年度保费收入国民生产总值年度保费收入国民生产总值19804.64517.81991239.721662.519817.84860.3199237826651.9198210.35301.8199352534560.5198313.25957.41994630466701984207206.7199568357494.9198533.18989.1199677666850.5198645.810201.41997108073142.7198771.0411954.519981247.376967.21988109.514922.319991393.2280579.41989142.616917.820001595.988228.11990178.518598.420012109.3694346.48.3曲线估计第1步分析:先用散点图的形式进行分析,看究竟是否具有一元线性关系,如果具有一元线性关系,则用一元线性回归分析,否则采用曲线估计求解。第2步数据组织:定义为三个变量,分别是“year”(年度)、“y”(保费收入)和“x”(国内生产总值),输入数据并保存。第3步作散点图初步判定变量的分布趋势:8.3曲线估计第4步进行曲线估计:依次选择菜单“分析→回归→曲线估计”,将所有模型全部选上,看哪种模型拟合效果更好(主要看决定系数R2),其所有模型的拟合优度R2如下表所示。从决定系数(R方即R2)来看,三次曲线效果最好(因为其R2值最大),并且方差分析的显著性水平(Sig.)为0。故重新进行上面的过程,只选“三次曲线(Cubic)”一种模型。模型名称RSquare(R2)直线(Linear)0.941二次曲线(Quadratic)0.973复合曲线(Compound)0.789生长曲线(Growth)0.789对数曲线(Logarithmic)0.772三次曲线(Cubic)0.990S曲线(S)0.946指数曲线(Exponential)0.789逆函数(Inverse)0.481幂函数(Power)0.972逻辑函数(Logistic)0.7898.3曲线估计第5步结果与分析。三次曲线模型拟合效果的检验表方差分析表RR方调整R方估计值的标准误.995.990.98964.883自变量为国内生产总值。平方和df均方FSig.回归7800612.55932600204.186617.659.000残差75775.960184209.776总计7876388.51821自变量为国内生产总值。8.3曲线估计回归系数表未标准化系数标准化系数tSig.B标准误Beta内民生产总值.029.0051.5065.836.000国内生产总值**2-5.364E-7.000-2.554-4.277.000国内生产总值**35.022E-12.0002.093..(常数)-166.43045.399-3.666.0029.2曲线估计拟合效果图8.3曲线估计说明:曲线估计是一个自变量与因变量的非线性回归过程,但只能处理比较简单的模型。如果有多个自变量与因变量呈非线性关系时,就需要用其他非线性模型对因变量进行拟合,SPSS19中提供了“非线性”过程,由于涉及的模型很多,且非线性回归分析中参数的估计通常是通过迭代方法获得的,而且对初始值的设置也有较高的要求,如果初始值选择不合适,即使指定的模型函数非常准确,也会导致迭代过程不收敛,或者只得到一个局部最优值而不能得到整体最优值。主要内容8.1回归分析概述8.2线性回归分析8.3曲线估计8.4二元Logistic回归分析8.4.1基本概念及统计原理(1)基本概念Logistic回归分析就是针对因变量是定性变量的回归分析。根据因变量取值类别数量不同,Logistic回归分析又分为二元Logistic回归分析和多元Logistic回归分析。二元Logistic回归模型中因变量只可以取两个值1和0(虚拟因变量),而多元Logistic回归模型中因变量可取多个值。8.4二元Logistic回归分析(2)统计原理logit变换8.4二元Logistic回归分析Logistic回归模型Logistic回归模型(3)统计检验与线性回归一样,拟合时也要考虑模型是否合适、哪些变量该保留、拟合效果如何等问题。线性回归中常用的是决定系数R2,T检验、F检验等工具在这里均不再适用。在Logistic回归中常用的检验有-2对数似然检验(-2log(likelihood),-2LL)、Hosmer和Lemeshow的拟合优度检验、Wald检验等。8.4二元Logistic回归分析8.4.2SPSS实例分析【例8-4】诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类失败会导致灾难性的后果。下表列出了66家公司的部分运营财务比率,其中33家在2年后破产(Y=0),另外33家在同期保持偿付能力(Y=1)。请用变量X1(未分配利润/总资产)、X2(税前利润/总资产)和X3(销售额/总资产)拟合一个Logistic回归模型。8.4二元Logistic回归分析X1X2X3YX1X2X3YX1X2X3YX1X2X3Y-62.8-89.51.704316.41.31-27.96.31.3031.415.71.913.3-3.51.1047161.91-48.26.81.6021.5-14.411-120.8-103.22.50-3.342.71-49.2-17.20.308.55.81.51-18.1-28.81.103520.81.91-19.2-36.70.8040.65.81.81-3.8-50.60.9046.712.60.91-18.1-6.50.9034.626.41.81-61.2-56.21.7020.812.52.41-98-20.81.7019.926.72.31-20.3-17.4103323.61.51-129-14.21.3017.412.61.31-194.5-25.80.5026.110.42.11-4-15.82.1054.714.61.7120.8-4.31068.613.81.61-8.7-36.32.8053.520.61.11-106.1-22.91.5037.333.43.51-59.2-12.82.1035.926.421-39.4-35.71.205923.15.51-13.1-17.60.9039.430.51.91-164.1-17.71.3049.623.81.91-381.61.2053.17.11.91-308.9-65.80.8012.571.81-57.90.70.8039.813.81.217.2-22.62037.334.11.51-8.8-9.10.9059.5721-118.3-34.21.5035.34.20.91-64.7-40.1016.320.411-185.9-2806.7049.525.12.61-11.44.80.90    -34.6-19.43.4018.113.54121.7-7.81.61    第1步分析:共有3个自变量,均是定量数据类型,而因变量是定性的,取值有两种状态(0和1),这是一个典型的可用二元Logistic回归解决的问题。第2步数据组织:定义三个自变量X1,X2和X3,再定义因变量Y,输入数据并保存。第3步二元Logistic回归分析设置:(设置过程详见教材p195-197)第4步主要结果及分析:数据的基本信息表8.4二元Logistic回归分析未加权的案例aN百分比选定案例包括在分析中66100.0缺失案例0.0总计66100.0未选定的案例0.0总计66100.0a.如果权重有效,请参见分类表以获得案例总数。模型系数的检验结果8.4二元Logistic回归分析BS.E,WalsdfSig.Exp(B)步骤0常量.000.246.00011.0001.000得分dfSig.步骤0变量X131.6211.000X219.3581.000X32.8001.094总统计量37.6133.000模型全局检验结果表8.4二元Logistic回归分析共采用了三种检验方法,分别是步与步间的相对似然比检验、块(Block)间的相对似然比检验和模型间的相对似然比检验。由于本例中只有一个自变量组且采取强行进入法将所有变量纳入模型,所以三种检验方法的结果是一致的,模型有显著的统计意义。模型情况摘要表。主要给出-2对数似然值的两个决定系数,从数据上看,模型的拟合度不错。卡方dfSig.步骤1步骤85.6833.000块85.6833.000模型85.6833.000步骤-2对数似然值Cox&SnellR方NagelkerkeR方15.813a.727.969a.因为参数估计的更改范围小于.001,所以估计在迭代次数12处终止。模型分类预测值表8.4二元Logistic回归分析此时模型的预测准确率已达到97%。 表格 关于规范使用各类表格的通知入职表格免费下载关于主播时间做一个表格详细英语字母大小写表格下载简历表格模板下载 从左到右依次表示变量及常数项的系数值(B)、标准误差(S.E.)、Wald卡方值、自由度(df)、相伴概率(Sig.)、Exp(B)。由于各回归系数均为正数,取相应的指数后会大于1,表示X1,X2和X3的取值越大,“两年后具有偿付能力”的可能性比“两年后破产”的可能性就越大,Logistic模型的参数拟合表已观测已预测Y百分比校正两年后破产两年后仍有偿付能力步骤1Y两年后破产32197.0两年后仍有偿付能力13297.0总计百分比97.0a.切割值为.500。BS.E,WalsdfSig.Exp(B)EXP(B)的95%C.I.下限上限步骤1aX1.331.3011.2131.2711.393.7722.511X2.181.1072.8621.0911.198.9721.478X35.0875.0821.0021.317161.979.0083430718.695常量-10.15310.840.8771.349.000a.在步骤1中输入的变量:X1,X2,X3.Logistic回归模型8.4二元Logistic回归分析TheEnd第九章聚类和判别分析主要内容9.1聚类与判别分析概述9.2二阶聚类9.3K-均值聚类9.4系统聚类9.5判别分析9.1聚类与判别分析概述9.1.1基本概念(1)聚类分析聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本又聚合为一类。根据分类对象的不同,聚类分析可分为对样本的聚类和对变量的聚类两种。(2)判别分析判别分析是判别样本所属类型的一种统计方法。9.1聚类与判别分析概述9.1.2样本间亲疏关系的度量(1)连续变量的样本间距离常用度量主要方法有欧氏距离(EuclideanDistance)、欧氏平方距离(SquaredEuclideanDistance)、切比雪夫距离(ChebychevDistance)、明可斯基距离(MinkowskiDistance)、用户自定义距离(CustomizeDistance)、Pearson相关系数、夹角余弦(Cosine)等。(公式见教材表7.9)(2)顺序变量的样本间距离常用度量常用的有统计量(Chi-squaremeasure)和统计量(Phi-squaremeasure)。(公式见教材表7.10)9.1聚类与判别分析概述9.1.1基本概念(3)二者区别不同之处在于,判别分析是在已知研究对象分为若干类型(或组别)并已取得各种类型的一批已知样本的观测量数据的基础上,根据某些准则建立判别式,然后对未知类型的样本进行差别分析。9.1聚类与判别分析概述说明:聚类分析的目的是找到样本中数据的特点,因此应注意所选择的变量是否已经能够反应所要聚类样本的主要特点。聚类分析时应注意所选择的变量是否存在数量级上的差别。如果一个样本包含不同数量的变量,则应先对变量进行标准化处理,而后再进行聚类。变量间的关系度量模型与样本间相类似,只不过一个用矩阵的行进行计算,另一个用矩阵的列进行计算。主要内容9.1聚类与判别分析概述9.2二阶聚类9.3K-均值聚类9.4系统聚类9.5判别分析9.2二阶聚类9.2.1基本概念及统计原理(1)基本概念二阶聚类(TwoStepCluster)(也称为两步聚类)是一个探索性的分析工具(),为揭示自然的分类或分组而 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 ,是数据集内部的而不是外观上的分类。它是一种新型的分层聚类算法(HierarchicalAlgorithms),目前主要应用到数据挖掘(DataMining)和多元数据统计的交叉领域——模式分类中。该过程主要有以下几个特点:分类变量和连续变量均可以参与二阶聚类分析;该过程可以自动确定分类数;可以高效率地分析大数据集;用户可以自己定制用于运算的内存容量。9.2二阶聚类9.2.1基本概念及统计原理(2)统计原理两步法的功能非常强大,而原理又较为复杂。他在聚类过程中除了使用传统的欧氏距离外,为了处理分类变量和连续变量,它用似然距离测度,它要求模型中的变量是独立的,分类变量是多项式分布,连续变量是正态分布的。分类变量和连续变量均可以参与两步聚类分析。9.2二阶聚类9.2.1基本概念及统计原理(3)分析步骤第1步预聚类:对每个观测变量考察一遍,确定类中心。根据相近者为同一类的原则,计算距离并把与类中心距离最小的观测量分到相应的各类中去。这个过程称为构建一个分类的特征树(CF)。第2步正式聚类:使用凝聚算法对特征树的叶节点分组,凝聚算法可用来产生一个结果范围。9.2二阶聚类9.2.2SPSS实例分析【例9-1】某机构为了调查学生性别和所学专业与毕业后初始工资的情况,调查抽取了60个学生的数据,如表9.1所示(其中“性别”1代表男性,0代表女性;“学科”1代表农学,2代表建筑,3代表地质,4代表商务,5代表林学,6代表教育,7代表工程,8代表艺术),试根据样本指标进行聚类分析。(数据参见教材P206)第1步分析:由于自变量中不仅有连续属性,也有分类变量,故采用二阶聚类进行分析。第2步数据组织:按表所示定义变量,输入数据并保存。9.2二阶聚类第3步二阶聚类设置:按“分析→分类→两步聚类”顺序打开“二阶聚类分析”对话框,并按下图进行设置。9.2二阶聚类第4步主要结果及分析:二阶聚类的模型概要和聚类质量情况聚类个案情况图从中可以看出,此算法采用的是两步(二阶)聚类,共输入3个变量,将所有个案聚成3类。聚类的平均轮廓值为0.6(其范围值为-1.0~1.0,值越大越好),说明聚类质量较好。可以看出各类所占的比例情况9.2二阶聚类第4步主要结果及分析:各个案所属的分类号情况主要内容9.1聚类与判别分析概述9.2二阶聚类9.3K-均值聚类9.4系统聚类9.5判别分析9.3K-均值聚类9.3.1基本概念及统计原理(1)基本概念K-均值聚(也称快速聚类)是由用户指定类别数的大样本资料的逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类数。分类变量和连续变量均可以参与两步聚类分析。(2)统计原理如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k。由系统首先选择k个观测量(也可以是用户指定)作为聚类的目标,n个变量组成n维空间。每个观测量在n维空间中是一个点。K个事先选定的观测量就是k个聚类中心,也称为初始类中心。按照距这几个类中心的距离最小的原则把观测量分派到各类中心所在的类中去;形成第一次迭代形成的k类。9.3K-均值聚类根据组成每一类的观测量计算每个变量的均值,每一类中的n个均值在n维空间中又形成k个点,这就是第二次迭代的类中心。按照这种方法迭代下去,直到达到指定的迭代次数或达到中止迭代的判据要求时,迭代就停止了,聚类过程也就结束了。(3)分析步骤第1步指定聚类数目k;第2步确定k个初始类中心;第3步根据距离最近原则进行分类;第4步重新确定k个类中心;第5步迭代计算。9.3K-均值聚类9.3.2SPSS实例分析【例9-2】测量12名大学生对《高等数学》的心理状况和学习效果,主要包括四个因素:学习动机、学习态度、自我感觉、学习效果,具体数据如下表所示。试将该12名学生分成3类以分析不同心理状况下学生的学习效果。编号学习动机学习态度自我感觉学习效果14080544423773564634370755845077857754787896366770846977737571008803773829834076961087437591116057708512705069909.3K-均值聚类第1步分析:由于已知分成3类,故可采用快速分类法。第2步数据组织:按如上表的表头所示建立变量,将“编号”变量的数据类型设为字符型(作为标识变量)。第3步快速聚类设置,按“分析→分类→K-均值聚类”顺序打开“K-均值聚类分析”对话框,将“学习动机”、“学习态度”、“自我感觉”、“学习效果”四个变量选入“变量”列表框。将“编号”变量移入“个案标记依据”框中;将“聚类数”设为3。其余“迭代”、“保存”和“选项”设置参见教材。9.3K-均值聚类第4步主要结果及分析:初始聚类中心表迭代历史表由表可知,第一次迭代后,3个类的中心点分别变化了8.193,9.889和13.472。一共进行了10次迭代,达到聚类结果的要求(达到最大迭代次数),聚类分析结束。由于没有指定初始聚类中心,列出了由系统指定的类中心。与原数据比较,发现它们分别是第1、第6和第7号个案。Cluster123学习动机406777学习态度807037自我感觉548457学习效果4469100迭代聚类中心内的更改12318.1939.88913.47223.9097.6314.70131.3031.526.6724.434.305.0965.145.061.0146.048.012.0027.016.002.0008.005.0003.996E-59.0029.768E-55.709E-610.0011.954E-58.155E-7a.迭代已停止,因为完成了最大次数的迭代。迭代无法收敛。任何中心的最大绝对坐标更改为.000。当前迭代为10。初始中心间的最小距离为48.518。9.3K-均值聚类最终聚类中心表如第1类的学习动机值为39,学习态度值为77,自我感觉值为55,学习效果值为45。样本数情况可看出第1,2,3类中分别含有2,4,6个样本聚类123学习动机395276学习态度777644自我感觉558370学习效果456791聚类12.00024.00036.000有效12.000缺失.0009.3K-均值聚类分类保存情况查看数据文件,可看到多出两个变量,分别表示每个个案的具体分类归属和与类中心的距离。主要内容9.1聚类与判别分析概述9.2二阶聚类9.3K-均值聚类9.4系统聚类9.5判别分析9.4系统聚类9.4.1基本概念与统计原理(1)基本概念系统聚类是效果最好且经常使用的方法之一,国内外对它进行了深入的研究,系统聚类在聚类过程中是按一定层次进行的。具体分成两种,分别是Q型聚类和R型聚类,Q型聚类是对样本(个案)进行的分类,它将具有共同特点的个案聚集在一起,以便对不同类的样本进行分析;R型聚类是对变量进行的聚类,它使具有共同特征的变量聚在一起,以便对不同类的变量进行分析。9.4系统聚类9.4.1基本概念与统计原理(2)统计原理系统聚类是根据个案或变量之间的亲疏程度,将最相似的对象聚集在一起。根据系统聚类过程的不同,又分为凝聚法和分解法两种。凝聚法的原理是将参与聚类的每个个案(或变量)视为一类,根据两类之间的距离或相似性,逐步合并直到合并为一个大类为止;分解法的原理是将所有个案(或变量)都视为一类,然后根据距离和相似性逐层分解,直到参与聚类的每个个案(或变量)自成一类为止。在层次聚类中,度量数据之间的亲疏程度是极为关键的。在衡量样本与样本之间的距离时,一般使用的距离有EulcideanDistance、SquaredEuclideanDistance、切比雪夫距离、Block距离、明可斯基距离(Minkowshi)、夹角余弦(Cosine)等。9.4系统聚类9.4.1基本概念与统计原理(2)统计原理衡量样本数据与小类、小类与小类之间亲疏程度的度量方法主要有以下7种:最短距离法(NearestNeighbor);最短距离法(NearestNeighbor);最长距离法(FurthestNeighbor);类间平均链锁法(Between-groupsLinkage);类内平均链锁法(Within-groupsLinkage);重心法(CentriodClustering);中间距离法(MedianClustering);离差平方和(Ward’sMethod)。9.4系统聚类9.4.2SPSS实现举例【例9-3】已知29例儿童的血中血红蛋白、钙、镁、铁、锰、铜的含量如下表,试对数据进行变量聚类分析。ordercamgfemncuhemoglordercamgfemncuhemogl154.8930.86448.70.0121.0113.51672.2840.12430.801.210.75272.4942.61467.30.0081.64131755.1333.02445.80.0120.91810.5353.8152.86425.610.0041.2213.751870.0836.81409.80.0121.1910.25464.7439.18469.80.0051.22141963.0535.07384.100.85310558.837.67456.550.0121.0114.252048.7530.53342.90.0180.9249.75643.6726.18395.780.0010.59412.752152.2827.14326.290.0040.8179.5754.8930.86448.70.0121.0112.52252.2136.18388.540.0241.029.25886.1243.79440.130.0171.7712.252349.7125.43331.10.0120.8979960.3538.2394.40.0011.14122461.0229.27258.940.0161.198.751054.0434.23405.60.0081.311.752553.6828.79292.80.0481.328.51161.2337.354460.0221.3811.52650.2229.17292.60.0061.048.251260.1733.67383.20.0010.91411.252765.3429.99312.80.0061.0381369.6940.01416.70.0121.35112856.3929.292830.0161.357.81473.8932.94312.50.0641.157.252966.1231.93344.200.6897.51547.3128.55294.70.0050.8387       9.4系统聚类第1步分析:根据题目要求,需进行变量聚类分析(即R型聚类),故采用系统聚类分析中的R型聚类进行处理。第2步数据组织:如上表定义七个变量:“order”(编号)、“ca”(钙)、“mg”(镁)、“fe”(铁)、“mn”(锰)、“cu”(铜)和“hemogl”(血红蛋白),其中“order”为字符串型,其余变量为数值型。第3步进行按变量聚类的设置:按“分析→分类→系统聚类”打开“系统聚类分析”对话框,将“ca”(钙)、“mg”(镁)、“fe”(铁)、“mn”(锰)、“cu”(铜)和“hemogl”(血红蛋白)几个变量选入“变量”列表框。设置按“变量”分类,并选择输出“统计量”和“图”,以激活“统计量(S)…”和“绘制(T)…“两个按钮。具体如下面图所示。9.4系统聚类9.4系统聚类第4步主要结果及分析:凝聚顺序表第1步是第4个变量和第5个变量进行聚类,变量间的距离系数为6.028,这个结果将在第2步中用到;第2步是经过第1步聚类后的变量4和变量5与变量6进行聚类,变量间的距离系数为54.938,这个结果将在第4步中用到。以此类推,这6个变量经过5步聚类最终聚成一个大类。阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集21456.02800224654.938104312144.078004414235.5303255131966.1924009.4系统聚类第4步主要结果及分析:系统聚类的冰柱图图的纵坐标表示聚类的数目,我们从图的最下方看起,从5类,逐渐到4类、3类、2类,最后聚成一个大类。首先是“铜”和“锰”聚成一类,其余每个变量各为一类。第2步再将“血红蛋白”聚到“铜”和“锰”一类中,原先的6个变量就变成了4类。以此类推,经过5步聚类,最后将所有变量聚成了一个大类。9.4系统聚类第4步主要结果及分析:系统聚类的树状图第1步将“cu(铜)”和“mn(锰)”聚成一类,第2步将“hemogl(血红蛋白)”聚到“cu(铜)”和“mn(锰)”类中,第3步将“ca(钙)”和“mg(镁)”聚成一类。以此类推,最后聚成一个大类。这与聚类顺序表和聚类冰柱图的分析结果是一致的。主要内容9.1聚类与判别分析概述9.2二阶聚类9.3K-均值聚类9.4系统聚类9.5判别分析9.5判别分析9.5.1基本概念与统计原理基本概念判别分析(DiscriminantAnalysis)是多元统计分析中用于判别样本所属类型的一种统计方法。它要解决的问题是在一些已知研究对象用某种方法已分成若干类的情况下,确定新的观察数据属于已知类别中的哪一类。判别分析是应用很强的一种多元统计分析方法。(2)统计原理判别分析按判别组数来分,有两组判别分析和多组判别分析,按区分不同总体所用的数学模型来分,有线性差别和非线性判别。判别分析可以从不同的角度提出问题,因此有不同的判别准则,如费歇尔(Fisher)准则和贝叶斯(Bayes)准则。判别函数的一般形式是9.5判别分析分析步骤第1步计算特征值:计算需要用到的一些反映样本的特征值,比如均值、协方差矩阵等。第2步建立判别函数:判别函数的一般形式如式10.1建立判别函数就是要确定这些系数。第3步确定判别准则:如费歇尔(Fisher)准则和贝叶斯(Bayes)准则。第4步检验判别效果:验证判别函数用来进行判别时的准确度。第5步分类:根据所建立的判别函数对待判样本进行分类。9.5判别分析9.5.1SPSS实例分析【例9-4】下表是健康人(c=1)、硬化症患者(c=2)和冠心病患者(c=3)三种人群的心电图的5个指标(x1~x5)数据,其中有19个样本是确定的分类,另又测出4个人的相关指标,试根据确定分类的样本对这未确定的样本进行分类。orderx1x2x3x4x5corderx1x2x3x4x5c18.11261.0113.235.467.361133.71316.1217.126.048.17229.36185.399.025.665.991145.37274.5716.754.989.67239.85249.5815.616.066.111159.89409.4219.475.1910.49242.55137.139.216.114.351165.22330.3418.194.969.61356.01231.3414.275.218.791174.71352.520.795.0711369.64231.3813.034.868.531183.36347.3117.94.6511.19374.11260.2514.725.3610.021198.27189.5912.745.466.94388.9259.5114.164.919.791207.71273.8416.015.158.79待定98.06231.0314.415.726.151217.51303.5919.145.78.53待定106.8308.915.115.528.492228.1476.697.385.3211.32待定118.68258.6914.024.797.162234.71331.4721.264.313.72待定125.67355.5415.134.979.432       9.5判别分析第1步分析:由于部分样本已经有分类标记,还有几个待分类样本。这显然属于根据已知分类样本的信息对未分类样本进行分类的情况,用判别分析进行处理。第2步数据组织:建立7个变量。分别是“序号”、“x1”、“x2”、“x3”、“x4”、“x5”和“c”,均为数值型变量。输入数据,对第20条~23条的类别“c”变量,不填数据,作为缺失值处理,存盘并保存。第3步进行按变量聚类的设置:按如下图示进行设置9.5判别分析9.5判别分析第4步主要结果及分析:分析案例处理摘要表表明共23条记录,已分好类的19条,有4条需进行分类。汇聚的变量之间相关矩阵表给出了这五个自变量之间的相关系数,如变量“x1”与变量“x2”之间的相关系数为0.059。x1x2x3x4x5Correlationx11.000.059-.008-.203-.090x2.0591.000.835-.328.762x3-.008.8351.000-.187.688x4-.203-.328-.1871.000-.659x5-.090.762.688-.6591.000未加权案例N百分比有效1982.6排除的缺失或越界组代码417.4至少一个缺失判别变量0.0缺失或越界组代码还有至少一个缺失判别变量0.0合计417.4合计23100.09.5判别分析特征值表由于本例中预测变量为5个,类别数为3,因此判别函数的个数为2(即min(3-1,5)=2)。判别函数的特征值越大,表明该函数越具有区别力。第一个判别函数的特征值为1.386,第二个为0.408。判别函数的显著性检验结果表其中“1到2”表示两个判别函数的平均数在3个级别间的差异情况。“2”表示在排除第一个判别函数后,第二个函数在3个级别间的差异情况。从最后的显著性概率Sig.来看,其两个判别函数的效果并不十分显著函数特征值方差的%累积%正则相关性11.386a77.377.3.7622.408a22.7100.0.538a.分析中使用了前2个典型判别式函数。函数检验Wilks的Lambda卡方dfSig.1到2.29816.96210.0752.7104.7874.3109.5判别分析判别系数表函数12x1.626.234x2-.9881.808x3-.664-1.398x4.974.416x51.434-.3369.5判别分析分类结果概述表从表中可以看出,有23条个案被成功分类。已处理的23已排除的缺失或越界组代码0至少一个缺失判别变量0用于输出中239.5判别分析分类函数系数表c健康硬化病冠心病x17.3606.8916.681x2-.222-.160-.211x3-5.354-5.209-4.227x4104.590100.62698.616x530.92029.07329.230(常量)-369.692-349.655-340.370Fisher的线性判别式函数9.5判别分析各类区域图及分类标记情况图这是以根据每个个案计算出的判别分数为坐标,以典则判别函数1为横轴,以典则判别函数2为纵轴,所绘出的散点图。可以看出,在图中分出了1,2,3三个区域,在图中也标出了各类的中心(其中心用“*”表示)。9.5判别分析分类结果矩阵对角线显示的为准确预测的个数,其余为错误预测的个数。从该表可以看出,已经分的19个个案正确分类17个,错误分类2个。正确率还是比较高的。根据这19个个案为先验数据,将待分类的4个个案分别分入1,2,3类的分别有1,1,2个。c预测组成员合计健康硬化病冠心病初始计数健康9009硬化病0516冠心病1034未分组的案例1124%健康100.0.0.0100.0硬化病.083.316.7100.0冠心病25.0.075.0100.0未分组的案例25.025.050.0100.0a.已对初始分组案例中的89.5%个进行了正确分类。9.5判别分析分类保存结果图TheEnd
本文档为【《SPSS回归分析》PPT课件】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥20.0 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
爱赢
公司经营范围:网络软件设计、制作、图文设计、影视制作(编辑)
格式:ppt
大小:5MB
软件:PowerPoint
页数:0
分类:教育学
上传时间:2021-02-19
浏览量:10