应用数理统计—典型相关分析

应用数理统计—典型相关分析典型相关分析*要点典型相关分析的数学表达方式，假定条件；典型相关系数的数学含义；典型变量系数的数学含义；简单相关，复相关和典型相关的意义；典型相关的应用一、什么是典型相关分析及基本思想通常情况下，为了研究两组变量的相关关系，可以用最原始的方法，分别计算两组变量之间的全部相关系数，一共有pq个简单相关系数，这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想，分别找出两组变量的各自的某个线性组合，讨论线性组合之间的相关关系，则更简捷。在解决实际问题中，这种方法有广泛的应用。如，在工厂里常常要研究产品的q个质...

典型相关分析 *要点典型相关分析的数学表达方式，假定条件；典型相关系数的数学含义；典型变量系数的数学含义；简单相关，复相关和典型相关的意义；典型相关的应用一、什么是典型相关分析及基本思想通常情况下，为了研究两组变量的相关关系，可以用最原始的方法，分别计算两组变量之间的全部相关系数，一共有pq个简单相关系数，这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想，分别找出两组变量的各自的某个线性组合，讨论线性组合之间的相关关系，则更简捷。在解决实际问题中，这种方法有广泛的应用。如，在工厂里常常要研究产品的q个质量指标和P个原材料的指标之间的相关关系；也可以是采用典型相关分析来解决的问题。如果能够采用类似于主成分的思想，分别找出两组变量的线性组合既可以使变量个数简化，又可以达到分析相关性的目的。例家庭特征与家庭消费之间的关系为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量：分析两组变量之间的关系。 X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵y2y3y1x2x1典型相关分析的思想：首先分别在每组变量中找出第一对线性组合，使其具有最大相关性，*然后再在每组变量中找出第二对线性组合，使其分别与本组内的第一线性组合不相关，第二对本身具有次大的相关性。u2和v2与u1和v1相互独立，但u2和v2相关。如此继续下去，直至进行到r步，两组变量的相关性被提取完为止。rmin(p,q)，可以得到r组变量。二、典型相关的数学描述考虑两组变量的向量其协方差阵为（一）想法其中11是第一组变量的协方差矩阵；22是第二组变量的协方差矩阵；是X和Y的其协方差矩阵。如果我们记两组变量的第一对线性组合为：其中：所以，典型相关分析就是求1和b1，使uv达到最大。（二）典型相关系数和典型变量的求法在约束条件:下，求a1和b1，使uv达到最大。令*利用柯西不等式有（参看1.8.4式）*记m为12的秩，则记为相应的特征向量为其余的零特征根对应的向量为*由特征向量可以构成一个正交矩阵T，有*若取则*相应的特征向量为a1和b1分别构成了第一组变量和第二组变量的第一对典型变量的系数。*第一对典型相关变量提取了原始变量x组和y组之间相关的主要部分，那么这部分的信息不够，则还可以在剩余相关中提取第二对典型变量：在以下的约束条件下：*求令则，约束条件等价于**当取这时uk和vk达到最大值k,称它为第k个典型相关系数，称ak和bk为第k对典型变量系数。*相应的特征向量为ak和bk分别构成了第一组变量和第二组变量的第k对典型变量的系数。*注有相同的特征根，而可以验证：根据线性代数的思想，下列矩阵*方法二根据数学分析中条件极值的求法，引入Lagrange乘数，求极值问题，则可以转化为求的极大值，其中和是Lagrange乘数。将上面的3式分别左乘和将左乘（3）的第二式，得并将第一式代入，得的特征根是，相应的特征向量为将左乘（3）的第一式，并将第二式代入，得的特征根是，相应的特征向量为结论：既是M1又是M2的特征根，和是相应于M1和M2的特征向量。至此，典型相关分析转化为求M1和M2特征根和特征向量的问题。第一对典型变量提取了原始变量X与Y之间相关的主要部分，如果这部分还不能足以解释原始变量，可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。。在剩余的相关中再求出第二对典型变量和他们的典型相关系数。设第二对典型变量为：在约束条件：求使达到最大的和。*例家庭特征与家庭消费之间的关系为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量：分析两组变量之间的关系。* X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵典型相关分析典型相关系数调整典型相关系数近似方差典型相关系数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数 U1U2X1(就餐）0.7689-1.4787X2（电影）0.27211.6443Y组典型变量的系数 V1V2Y1（年龄）0.04911.0003Y2（收入）0.8975-0.5837Y3（文化）0.19000.2956三、典型变量的性质1、同一组的典型变量之间互不相关X组的典型变量之间是相互独立的：Y组的典型变量之间是相互独立的：因为特征向量之间是正交的。故2、不同组的典型变量之间相关性不同组内一对典型变量之间的相关系数为：*同对则协方差为i，不同对则为零。3、原始变量与典型变量之间的相关系数原始变量相关系数矩阵X典型变量系数矩阵y典型变量系数矩阵***例家庭特征与家庭消费之间的关系为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量：分析两组变量之间的关系。* X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵典型相关分析典型相关系数调整典型相关系数近似方差典型相关系数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数 U1U2X1(就餐）0.7689-1.4787X2（电影）0.27211.6443Y组典型变量的系数 V1V2Y1（年龄）0.04911.0003Y2（收入）0.8975-0.5837Y3（文化）0.19000.2956典型变量的结构（相关系数） U1U2X10.9866-0.1632X20.88720.4614 V1V2Y10.42110.8464Y20.9822-0.1101Y30.51450.3013典型变量的结构（相关系数） V1V2X10.6787-0.0305X20.61040.0862 U1U2Y10.28970.1582Y20.6757-0.0206Y30.35390.0563*两个反映消费的指标与第一对典型变量中u1的相关系数分别为0.9866和0.8872，可以看出u1可以作为消费特性的指标，第一对典型变量中v1与Y2之间的相关系数为0.9822，可见典型变量v1主要代表了了家庭收入，u1和v1的相关系数为0.6879，这就说明家庭的消费与一个家庭的收入之间其关系是很密切的；第二对典型变量中u2与x2的相关系数为0.4614，可以看出u2可以作为文化消费特性的指标，第二对典型变量中v2与Y1和Y3之间的分别相关系数为0.8464和0.3013，可见典型变量v2主要代表了家庭成员的年龄特征和教育程度，u2和v2的相关系数为0.1869，说明文化消费与年龄和受教育程度之间的有关。*4、各组原始变量被典型变量所解释的方差X组原始变量被ui解释的方差比例X组原始变量被vi解释的方差比例y组原始变量被ui解释的方差比例y组原始变量被vi解释的方差比例被典型变量解释的X组原始变量的方差被本组的典型变量解释被对方Y组典型变量解释比例累计比例典型相关系数平方比例累计比例10.88030.88030.47330.41660.416620.11971.00000.03490.00420.4208被典型变量解释的Y组原始变量的方差被本组的典型变量解释被对方X组典型变量解释比例累计比例典型相关系数平方比例累计比例10.46890.46890.47330.22190.221920.27310.74200.03490.00950.2315*5、简单相关、复相关和典型相关之间的关系若p＝1且q＝1，则x和y的典型相关就是简单相关；若p＝1或q＝1，则x和y的典型相关就是复相关；*五、样本典型相关系数在实际应用中，总体的协方差矩阵常常是未知的，类似于其他的统计分析方法，需要从总体中抽出一个样本，根据样本对总体的协方差或相关系数矩阵进行估计，然后利用估计得到的协方差或相关系数矩阵进行分析。由于估计中抽样误差的存在，所以估计以后还需要进行有关的假设检验。*1、假设有X组和Y组变量，样本容量为n。假设(X1,Y1),(X2,Y2),…,(Xn,Yn)，观测值矩阵为：**2、计算特征根和特征向量求M1和M2的特征根，对应的特征向量。则特征向量构成典型变量的系数，特征根为典型变量相关系数的平方。*六、典型相关系数的检验　　典型相关分析是否恰当，应该取决于两组原变量之间是否相关，如果两组变量之间毫无相关性而言，则不应该作典型相关分析。用样本来估计总体的典型相关系数是否有误，需要进行检验。　（一）整体检验检验的统计量：*所以，两边同时求行列式，有事实上**由于所以若M的特征根为，则(l-M)的特征根为(1-)。根据矩阵行列式与特征根的关系，可得：*在原假设为真的情况下，检验的统计量近似服从自由度为pq的2分布。在给定的显著性水平下，如果22(pq)，则拒绝原假设，认为至少第一对典型变量之间的相关性显著。*依此类推，再检验下一对典型变量之间的相关性。直至相关性不显著为止。对两组变量x和y进行典型相关分析，采用的也是一种降维技术。我们希望使用尽可能少的典型变量对数，为此需要对一些较小的典型相关系数是否为零进行假设检验。H0经检验被拒绝，则应进一步检验假设。*若原假设H0被接受，则认为只有第二对典型变量是有用的；若原假设H0被拒绝，则认为第二对典型变量也是有用的，并进一步检验假设。（二）部分总体典型相关系数为零的检验*如此进行下去.直至对某个k*检验的统计量近似服从自由度为(p-k)(q-k)的2分布。在给定的显著性水平下，如果22[(p-k)(q-k)]，则拒绝原假设，认为至少第k+1对典型变量之间的相关性显著。*H0:当前和后面的典型相关系数均为零H1:至少当前的典型相关系数为零 LikelihoodRatioApproxFNumDFDenDFPr>F10.508334981341.2346199900.000120.96508130180.838299960.0001可见，前面两对典型变量的相关性是很强的。*职业满意度典型相关分析某调查公司从一个大型零售公司随机调查了784人，测量了5个职业特性指标和7个职业满意变量。讨论两组指标之间是否相联系。X组：Y组：X1—用户反馈Y1—主管满意度X2—任务重要性Y2—事业前景满意度X3—任务多样性Y3—财政满意度X4—任务特殊性Y4—工作强度满意度X5—自主权Y5—公司地位满意度Y6—工作满意度Y7—总体满意度* X1X2X3X4X5Y1Y2Y3Y4Y5Y6Y7X11.000.490.530.490.510.330.320.200.190.300.370.21X20.491.000.570.460.530.300.210.160.080.270.350.20X30.530.571.000.480.570.310.230.140.070.240.370.18X40.490.460.481.000.570.240.220.120.190.210.290.16X50.510.530.570.571.000.380.320.170.230.320.360.27Y10.330.300.310.240.381.000.430.270.240.340.370.40Y20.320.210.230.220.320.431.000.330.260.540.320.58Y30.200.160.140.120.170.270.331.000.250.460.290.45Y40.190.080.070.190.230.240.260.251.000.280.300.27Y50.300.270.240.210.320.340.540.460.281.000.350.59Y60.370.350.370.290.360.370.320.290.300.351.000.31Y70.210.200.180.160.270.400.580.450.270.590.311.00*CanonicalCorrelationAnalysis AdjustedCanonicalCorrelationApproxCanonicalCorrelationSquaredStandardError CanonicalCorrelation10.5537060.5530730.0069340.30659120.2364040.2346890.0094420.05588730.119186.0.0098580.01420540.072228.0.0099480.00521750.057270.0.0099680.003280* LikelihoodRatioApproxFNumDFDenDFPr>F10.63988477134.42373542018.150.000120.9228094133.82422434848.670.000130.9774354115.26341527578.390.000140.9915203010.65798199820.000150.9967201510.9600399920.0001当前和后面的典型相关系数均为零的检验* U1U2U3U4U5X10.42170.3429-0.8577-0.78840.0308X20.19511-0.66830.4434-0.26910.9832X30.1676-0.8532-0.25920.4688-0.9141X4-0.02290.3561-0.42311.04230.5244X50.45970.72870.9799-0.1682-0.4392X组的典型变量* V1V2V3V4V5Y10.4252-0.08800.4918-0.1284-0.4823Y20.20890.4363-0.7832-0.3405-0.7499Y3-0.0359-0.0929-0.4778-0.60590.3457Y40.02350.9260-0.00650.40440.3116Y50.2902-0.10110.2831-0.44690.7030Y60.5157-0.5543-0.41250.68760.1796Y7-0.1101-0.03170.92850.2739-0.0141Y组的典型变量* U1U2U3U4U5X10.82930.1093-0.4853-0.24690.0611X20.7304-0.43660.20010.00210.4857X30.7533-0.4661-0.10560.3020-0.3360X40.61600.2225-0.20530.66140.3026X50.86060.26600.38860.1484-0.1246 V1V2V3V4V5Y10.75640.04460.3395-0.1294-0.3370Y20.64390.3582-0.1717-0.3530-0.3335Y30.38720.0373-0.1767-0.53480.4148Y40.37720.7919-0.00540.28860.3341Y50.65320.10840.2092-0.43760.4346Y60.8040-0.2416-0.23480.40520.1964Y70.50240.16280.4933-0.18900.0678原始变量与本组典型变量之间的相关系数* V1V2V3V4V5X10.45920.0258-0.0578-0.01780.0035X20.4044-0.10320.02390.00020.0278X30.4171-0.1102-0.01260.0218-0.0192X40.34110.0526-0.02450.04780.0173X50.47650.06290.04630.0107-0.0071 U1U2U3U4U5Y10.41880.01050.0405-0.0093-0.0193Y20.35650.0847-0.0205-0.0255-0.0191Y30.21440.0088-0.0211-0.03860.0238Y40.20880.1872-0.00060.02080.0191Y50.36170.02560.0249-0.03160.0249Y60.4452-0.0571-0.02800.02930.0112Y70.27820.03850.0588-0.01360.0039原始变量与对应组典型变量之间的相关系数*可以看出，所有五个表示职业特性的变量与u1有大致相同的相关系数，u1视为形容职业特性的指标。第一对典型变量的第二个成员v1与Y1，Y2，Y5，Y6有较大的相关系数，说明v1主要代表了主管满意度，事业前景满意度，公司地位满意度和工种满意度。而u1和v1之间的相关系数0.5537。*CanonicalRedundancyAnalysisRawVarianceofthe'VAR'VariablesExplainedbyTheirOwnTheOppositeCanonicalVariablesCanonicalVariablesCumulativeCumulativeProportionProportionProportionProportion10.58180.58180.17840.178420.10800.68980.00600.184430.09600.78580.00140.185840.12230.90810.00060.186450.09191.00000.00030.1867RawVarianceofthe'WITH'VariablesExplainedbyTheirOwnTheOppositeCanonicalVariablesCanonicalVariablesCumulativeCumulativeProportionProportionProportionProportion10.37210.37210.11410.114120.12220.49430.00680.120930.07400.56830.00110.122040.12890.69720.00070.122650.10580.80300.00030.1230*u1和v1解释的本组原始变量的比率：X组的原始变量被u1到u5解释了100%Y组的原始变量被v1到v5解释了80.3%X组的原始变量被u1到u4解释了90.81%Y组的原始变量被v1到v4解释了69.72%房地产指标典型相关分析报告在对房地产指标的典型相关分析中建立了如下的指标体系：X1：开发公司个数（个）X2：年平均职工人数（人）X3：自开始建设至本年底累计完成投资X4：本年完成投资X5：施工房屋面积（万平方米）Y1：经营总收入Y2：土地转让收入Y3：商品房屋销售收入Y4：房屋出租收入Y5：经营税金及附加Y6：营业利润Y7：竣工房屋面积（万平方米）Y8：竣工房屋价值（万元）其中，X1-X5是反映房地产投入的变量，Y1-Y8是反映房地产产出的变量。数据来源于《1999中国统计年鉴》，选取了全国30个省市自治区的相应指标值（西藏和新疆两自治区因数据不全而删除序号典型相关系数典型变量1 0.998716 U1=-0.1769X1+0.0639X2+0.7264X3+0.3633X4+0.0053X5V1=2.5217Y1+0.1720Y2-1.7370Y3-0.1993Y4-0.0886Y5-0.3747Y6-0.1016Y7+0.6610Y82 0.980640 U2=0.3319X1+0.0785X2-3.3077X3+1.8943X4+1.2047X5V2=-2.0308Y1-0.2555Y2+0.3219Y3+0.4304Y4+1.4052Y5+0.4774Y6+2.0697Y7-1.8594Y8 3 0.916191U3=-1.1339X1-3.1176X2+1.2803X3-3.9436X4+6.7392X5V3=0.3990Y1-0.6098Y2-0.7852Y3-2.0872Y4+4.2927Y5-0.6167Y6-1.6135Y7+0.5071Y840.757332U4=1.4478X1-1.7250X2-4.4766X3+8.1918X4+3.5963X5V4=-8.0531Y1-0.9941Y2-1.6221Y3-1.3311Y4+5.1584Y5+1.6818Y6-0.9464Y7+6.4783Y85 0.739978 U5=-3.7387X1+2.3073X2-2.0488X3+1.8063X4+1.4170X5V5=4.7208Y1-0.3733Y2-4.4002Y3+3.1983Y4-4.2877Y5-1.8271Y6+1.5460Y8+0.9555Y9 第一对典型变量中，U1主要受自开始建设至本年底累计完成投资影响，V1主要受经营总收入和商品房屋销售收入影响；第二对典型变量中，U2主要受自开始建设至本年底累计完成投资、本年完成投资和施工房屋面积影响，V2主要受经营税金及附加、竣工房屋面积和竣工房屋价值影响：第三对典型变量中，U3受各个指标影响都较大，V4主要受房屋出租收入、经营税金及附加和竣工房屋面积的影响；第四对典型变量中，U4主要受本年完成投资的影响，V4主要受经营总收入和工房屋价值的影响。第五对典型变量中，U5主要受开发公司个数影响，V4主要受经营总收入、商品房屋销售收入、房屋出租收入和经营税金及附加影响。但注意到，第一对典型变量的方差贡献率已达92.20%,故保留第一对典型变量用作分析，从而达到降维的目的。总的来说，房地产的投入变量主要受自开始建设至本年底累计完成投资影响，产出变量集中在经营总收入和商品房屋销售收入上。累计完成投资额与经营总收入，特别是商品房屋销售收入高度相关。典型相关分析的基本思想：首先分别在每组变量中找出第一对线性组合，使其具有最大相关性，然后再在每组变量中找出第二对线性组合，使其分别与本组内的第一线性组合不相关，第二对本身具有最大相关性。如此下去，直至两组变量的相关性被提取完为止。本例想利用我国1999年城镇居民的家庭收入来源和消费性支出的数据了解我国居民消费构成及主要影响因素分析所用的数据来自：《中国统计年鉴》2000。我国居民消费构成及主要影响因素收入指标：X1——可支配收入X2——实际收入X3——国有单位职工收入X4——集体单位职工收入X5——其他经济类型职工收入，X6——转移收入支出指标：Y1——消费性支出Y2——食品Y3——衣着Y4——交通和通讯Y5——医疗和保健Y6——娱乐、教育、文化服务Y7——居住序号典型相关系数典型变量10.990174U1=0.9989X1+-0.0595X2+0.0776X3+0.0489X4-0.0931X5+0.0074X6V1=1.3263Y1-0.0270Y2-0.0005Y3-0.0769Y4-0.0717Y5-0.2031Y6-0.0219Y20.868704U2=-4.8668X1+0.1264X2+1.9585X3+0.3299X4+1.4095X5+2.6453X6V2=-4.4920Y1+2.5421Y2+1.2480Y3-0.4621Y4+1.0443Y5+0.8610Y6+0.0586Y7由累计贡献率得知,第一组和第二组变量的累计贡献率已达到了97.56%,而且,这两组的系数和方差与其他组相比要大得多.即只需要前两组变量就已经可以解释全部信息的97.56%.在第一对典型变量中，U1主要受可支配收入的影响，V1主要受消费性支出的影响；可见实际收入对消费支出的影响远小于可支配收入的影响。居民消费主要依据其可支配收入而定。第二对典型变量中，U2主要受国有单位职工收入、其他经济类型职工收入和转移收入的影响，V2主要受食品、衣着、医疗和保健的影响。*在此，可见我国集体单位的职工收入还不能够与国有甚至是其他经济类型的单位这职工收入相比，这也从一个侧面放反映了集体单位规模等方面的现状。再有就是我国居民食品和衣着方面的支出仍占了总支出的大部分，反映了我国居民总体收入水平还不够高；其次，医疗保健支出的比例比较大是可喜的，说明我国居民已经可以把部分精力放在了自己身体的调养上来，全国居民的总体健康状况在上升之中。让我们担忧的是在教育方面的支出所占比例太小，不符合现今世界发展对教育程度的要求。科技是第一生产力，如何提高国民的科技文化知识水平是当今的一大重点。在当代激烈的竞争中，没有知识的支撑是不行的。

                    本文档为【应用数理统计—典型相关分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

应用数理统计—典型相关分析

你可能还喜欢