首页 主成分分析法

主成分分析法

举报
开通vip

主成分分析法主成分分析法 11.2 主成分分析 主成分分析(Principal Components Analysis)也称主分量分析,是由Hotelling于1933年首先提出的。主成分分析是利用降维的思想,把多个指标转化为少数几个综合指标的多元统计分析方法。本节主要介绍主成分分析的基本理论和方法,并结合实例讨论该方法在社会、经济研究中的应用。 11.2.1主成分分析的基本思想 在经济实证问题研究中,为了全面、系统地分析问题,必须考虑众多对某经济过程有 影 响的因素。所涉及的因素称为指标。在多元统计分析中也称为变量。...

主成分分析法
主成分 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 法 11.2 主成分分析 主成分分析(Principal Components Analysis)也称主分量分析,是由Hotelling于1933年首先提出的。主成分分析是利用降维的思想,把多个指标转化为少数几个综合指标的多元统计分析方法。本节主要介绍主成分分析的基本理论和方法,并结合实例讨论该方法在社会、经济研究中的应用。 11.2.1主成分分析的基本思想 在经济实证问题研究中,为了全面、系统地分析问题,必须考虑众多对某经济过程有 影 响的因素。所涉及的因素称为指标。在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得到的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增大计算量和增加分析问题的复杂性,人们自然希望在进行定量分析的过程中涉及的变量较少,而得到的信息量又较多。主成分分析是解决这一问题的理想工具。因为经济问题涉及的众多变量之间既然有一定的相关性,就必然存在着支配作用的共同因素,找出影响某一经济过程的几个综合指标,使综合指标为原来变量的线性组合。综合指标不仅保留了原始变量的主要信息,彼此之间又不相关,又比原始变量具有某些更优越的性质,使得在研究复杂的经济问题时容易抓住主要矛盾。 (1)主成分的几何意义与一般数学模型 1(主成分的几何意义 为了方便,在二维空间中讨论主成分的几何意义。 x和xx和x设有n个样本单位,每个样本单位有两个观测变量,在由变量所确1212 定 x的二维平面中,n个样本点所散布的情况如带状,可以看出这n个样本点无论是沿着轴方1 xxx向或轴方向都具有较大的离散性,其离散的程度可以分别用观测变量的方差和的方122 xx差定量地 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示。显然,如果只考虑和中的任何一个,那么包含原始数据中的经济信息12 将会有较大的损失。 xxyy如果将轴和轴同时按逆时针方向旋转角度,得到新坐标轴和是两个新 ,1212变量。根据旋转变换公式 ,,,,yxcosxsin,112 (11,13) ,y,,xsin,,xcos,212, 看到新变量y和y是原始变量x和x的线性组合,它的矩阵表示形式为: 1212 ,,ycossinx,,,,,,11/,, (11,14) ,,UX,,,,,,y,sin,cos,x,,,,,,22 /其中,为旋转变换矩阵,它是正交矩阵,即有 U /,1/U,U,UU,I yy旋转变换的目的是为了使得n个样本点在轴方向上的离散程度最大,即的方11 y差最大。变量代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑1 yy变量也无损大局。这样,经过上述旋转变换就可以把原始数据的信息集中到轴上21 y,yx,x对数据中包含的信息起到了浓缩作用。除了可以对包含在中的信息起到浓1212缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所 yy带来的虚假性。二维平面上n个点的方差大部分都归结在轴上,而轴上的方差很12 yyxx小,和称为原始变量和的综合变量。 1212 1 主成分分析的一般数学模型 p设在个变量所描述的事物总体中抽取一个样本共有n个样本单位, x,x,...,x12p (i,1,2,...,n)(x,x,...,x)i1i2ip 这样就有原始数据矩阵 xx...x,,11121p,,xx...x21222p,,X, (11,15) ,,............ ,,xx...x,,n1n2np,, xx其中数据的第一个下标i是样本单位,第二个小标j是第j个变量,即第i个样本ijij 单位的第j 个变量的值。为了计算变量间的协方差矩阵,先计算 n2(x,x)j,ijn1i,1,,x,x j,jijn,1n,1i z,(x,x)/,(i,1,2,...,n;j,1,2,...,p)jijijj这样得到矩阵 zz...z,,11121p,,zz...z21222p,, Z, (11,16) ,,............ ,,zz...z,,n1n2np,,那么对于变量的相关系数矩阵 x,x,...,x12p 1T (11,17) RZZ,n 其中矩阵 zz...z,,1121n1,,zz...z1222n2T,,Z, ,,............ ,,zz...z,,1p2pnp,, z,z,...,z现在问题就归结为寻找一个变换,它能把变量变换成一组互不相关的变量,12p y,y,...,y。假定这个变换是 12p p (11,18) (i,1,2,...,p)y,vz,jijj,1j 或写成矩阵形式 yvv...vz,,,,,,1111211p,,,,,,yvv...vz2212222p,,,,,, (11,19) ,,,,,,,.................. ,,,,,,yvv...vz,,,,,,12pppppp,,,,,, 其中矩阵 vv...v,,11121p,,vv...v21222p,,V, (11,20) ,,............ ,,vv...v,,p1p2pp,, 就是要寻找的变换矩阵。 求解阵需满足三个条件: V T(a),即为P阶正交阵; (11,21) VV,IV y,y,...,y(b)之间不相关; (11,22) 12p (c)的p个分量是按照方差大小排列的。 (11,23) y 变换关系式的矩阵形式为: TT Y,VZ y,y,...,y因为对于变量的协方差矩阵是 12p 1T YYn 要满足求解V阵的第2个条件(11,22),即是互不相关的量,也就是y,y...,y12,p 要求 对教师党员的评价套管和固井爆破片与爆破装置仓库管理基本要求三甲医院都需要复审吗 它们的协方差矩阵对角型矩阵,即除矩阵的主对角线上元素之外,其余元素都是 零。 即 ,0,,1,,,1112TTTTTTT,,,()(),,,YYVZVZVZZVVRV (11,24) ,,...nnn ,,0,P,,得到 ,0,,1,,,2T,, VRV (11,25) ,,,... ,,0,P,, T根据求解V阵的第一个条件,(11,21),用乘以方程(11,25)的两边,得到 V ,0,,1,,,2TT,,,RVV (11,26) ,,... ,,0,P,, 将(11,26)写成代数式有 ,rr...rvv...vvv...v0,,,,,,,,ppp1112111211112111,,,,,,,,,rr...rvv...vvv...vppp2122212222122222,,,,,,,,, ,,,,,,,,....................................... ,,,,,,,,rr...rvv...vvv...v0,,,,,,,,,ppppppppppppp121212,,,,,,,, 2p把上式全部展开便得到个方程。这里只考虑在矩阵乘积中由第一列得出的p个方程为: ,rv,rv,...,rv,v,111112121p1p111,,rv,rv,...,rv,v,211122122p1p121 ,......, ,rvrv...rvv,,,,,p111p212pp1p1p1, 整理得到 ,(r,)v,rv,...,rv,0,1111112121p1p,,rv,(r,)v,...,rv,0,2111221122p1p (11,27) ,......, ,rvrvr,v,,...,(,),0p111p212pp11p, v 为了得到齐次线性方程组(11,27)式的解,根据线性方程的理论知,要求的ij 系数行列式为0,即 ,rrr,...111121p ,rrr,...212222p,0 ............ rrr,...,p1p2pp1 写成矩阵形式有 (11,28) R,,I,01 ,,...,,,y对于可以得到类似的方程。于是,所求的(的方差)(是 i,1,2,...,p)2pii R,,I,0 vp的个根,为相关矩阵的特征值,相应的各个是特征向量的分量。 ,ij 因为R为正定矩阵,故其特征根都是非负实数,将它们依大小顺序排列 V,V,...,Vy,,其相应的特征向量记为,则相对于的方差为:,同,,,,...,,,012P1112p yy,yy理,的方差为。称为第1主成分,称为第2主成分,…称为第p主成分。 pii12 11.2.2主成分分析的计算举例 在这一节里,我们将用一个经济实例来说明主成分分析的具体计算过程。 例11.2 对我国家电行业上市公司经营业绩综合评价。经过研究,共设计的评价指标 有10个,原始数据见表11,3, 表11,3 家电产业上市公司经营业绩的原始数据 上市公司 xxxxx xxx 35678124 7.230 .370 4.310 3.720 .500 -30.650 -28.540 -28.850 浙江阳光 7.490 .500 15.150 16.470 1.610 .980 -35.730 -35.060 青岛海尔 3.870 .230 1.770 12.450 .450 -1.210 -47.870 -47.870 春兰股份 9.140 .460 5.200 2.990 .560 5.650 10.680 .660 上菱电器 1.250 .070 25.430 3.740 1.410 45.220 294.820 295.050 海信电器 5.030 .550 26.110 5.700 1.000 6.700 8.800 7.840 格力电器 1.140 .080 3.540 1.630 .700 32.270 99.020 97.560 四川长虹 1.120 .100 2.980 2.080 .520 56.740 -24.130 -24.170 澳柯玛 9.220 .170 8.650 1.840 .680 10.870 -13.870 -15.000 宁波富达 1.150 .020 2.630 1.920 .280 55.630 75.980 100.000 深华发A 5.160 .150 5.994 4.550 .410 9.010 29.480 29.410 赛格三星 -1.860 -.100 3.670 21.320 .820 72.310 -184.190 -184.550 福日股份 .450 .004 2.220 3.130 .310 129.220 20.650 22.860 华意压缩 5.060 .320 10.980 4.310 1.390 3.250 -38.440 -38.460 粤美的A 1.850 .140 2.680 5.400 .460 -3.290 -43.340 -48.480 广电信息 -26.360 -1.150 5.190 4.700 .880 34.150 -1659.55 -1659.32 ST小天鹅 -9.150 -.220 2.780 .400 .130 -67.310 -453.390 -466.670 长风特电 1.820 .150 7.700 .250 .200 -33.090 43.130 36.360 深达声A -12.080 -.180 1.160 .480 .200 -5.200 28.390 30.770 ST湖山 .770 .060 19.890 2.520 1.130 19.170 105.09 105.17 深康佳A 6.490 .150 123.63 136.59 .660 651.950 63.100 64.040 广电网络 1.880 .050 7.930 7.300 .640 12.460 113.840 113.300 福地科技 -15.300 -.820 1.340 .760 .220 -37.450 -177.970 -173.330 ST小鸭 1.470 .100 12.300 2.880 .690 3.340 106.510 106.500 ST科龙 .430 .030 7.250 3.700 .920 35.440 103.590 103.640 ST厦华 -24.700 -.750 2.600 1.440 .250 -41.360 8.280 7.980 ST长岭 .360 .200 2.760 3.550 .550 -2.380 102.320 123.530 美菱电器 -5.960 -.180 3.020 1.950 .390 -1.210 89.700 89.700 ST家乐 x:x:x:x:x:总资产利润率;每股收益;应收账款周转率;存货周转率;总资产周转35124 x:x:x:率;主营业务收入增长率;净利润增长率;每股收益增长率 678 采用SPSS软件计算 1(建立SPSS数据文件 图11,2 建立数据文件 2( Analyze,Data Reduction,Factor x,x,...,x,Variable 128 图11,3 输入变量 点击OK 输出结果: 表11--4 Total Variance Explained Initial Extraction Eigenvalues Sums of Squared Loadings ComponenTotal % of Cumulative % Total % of Variance Cumulative % t Variance 1 3.571 44.634 44.634 3.571 44.634 44.634 2 2.594 32.425 77.059 2.594 32.425 77.059 3 1.133 14.160 91.218 1.133 14.160 91.218 4 .542 6.773 97.991 5 8.364E-02 1.045 99.036 6 4.340E-02 .543 99.579 7 3.358E-02 .420 99.999 8 1.092E-04 1.365E-03 100.000 Extraction Method: Principal Component Analysis. ,,3.571,,2.594第1个主成分对应的特征根,第2个主成分对应的特征根,第312 ,,1.133个主成分对应的特征根 3 m,,i,ii,1,,设,,称为第i个主成分方差贡献率,称为前m个主成分累积方差贡iipp ,,,,iii,1i,1 m ,,ii,1献率,应用主成分法的目的是为了减少变量的个数,一般情况下,当,85%,取前mp ,,ii,1 个主成分。 应用主成分分析法,建立综合评价模型。 ,,,12m (11,29) F,y,y,...,12mmm ,,,,,,iii,1,1,1iii 对于例11.2 ,取三个主成分,累积贡献率已达到91.218%>85%,所以,取m=3, 从计算机输出结果,可得: 表11--5 主成分载荷因子 第1主成分 第2主成分 第3主成分 X1 .813 -.353 .251 X2 .780 -.455 .249 X3 .665 .715 -3.053E-02 X4 .601 .775 -.113 X5 .308 3.071E-02 .857 X6 .601 .765 -.114 X7 .722 -.532 -.351 X8 .722 -.531 -.350 得到: 采用SPSS软件计算 ,, 1( AnalyzeData ReductionFactor x,x,...,x,Variable 128 图11,4 输入变量 2( 点击 Scores 图11,5 保存变量 在Save as variables 画?点击Continue ,点击OK 返到数据窗口 得到三个主成分的值:fac1-1,fac2-1,fac3-1 图11,6 得到各主成分值 应用计算公式: 3.5712.5941.133F,y,y,y123(3.571,2.594,1.133)(3.571,2.594,1.133)(3.571,2.594,1.133) 点击 Transform ?Compute ,得到以下窗口 图11,7 计算综合值 在Target Variable 中输入f 在Numeric Exprssion 中输入 (3.574/(3.574+2.582+1.51))×fac1-1+(2.582/(3.574+2.582+1.51))×fac2-1+(1.51/(3.574+2.581+1.51))×fac3-1 图11,8 输入综合评价计算公式 点击OK 图11,9 综合排序结果 按照F值,由大到小排序,得到排序结果。见表11,5 图11,10 排序结果 表11,5 我国家电产业上市公司综合评价排序结果 上市公司 广电网络 青岛海尔 粤美的A 海信电器 格力电器 排名 1 2 3 4 5 上市公司 深康佳A 福日股份 宁波雷达 ST夏华 上菱电气 排名 6 7 8 9 10 上市公司 ST科龙 福地科技 浙江阳光 四川长虹 春兰股份 排名 11 12 13 14 15 上市公司 澳柯玛 赛格三星 华意压缩 广电信息 美菱电气 排名 16 17 18 19 20 上市公司 ST小天鹅 深华发A 深达声 ST家乐 长风特电 排名 21 22 23 24 25 上市公司 ST湖山 ST小天鹅 ST长岭 排名 26 27 28 从计算的结果得到,我国家电产业上市公司经营业绩排在前3位的分别是:广电网络、青岛海尔、粤美的A。
本文档为【主成分分析法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_624976
暂无简介~
格式:doc
大小:262KB
软件:Word
页数:15
分类:企业经营
上传时间:2017-09-02
浏览量:54