首页 主成分分析法

主成分分析法

举报
开通vip

主成分分析法 主成分分析方法 __河流水质的综合评价 思想:利用降维的思想,把多指标转化为少 数几个综合指标。 在研究多变量问题时,变量太多会增大计 算量和增加分析问题的复杂性,人们自然希望 在进行定量分析的过程中涉及的变量较少,而 得到的信息量又较多。主成分分析是解决这一 问题的理想工具。(主要分析众多变量之间的 相关性) 主成分分析 思想:利用降维的思想,把多指标转化为少 数几个综合指标。 在研究多变量问题时,变量太多会增大计 算量和增加分析问题的复杂性,人们自然希望 在进行定量分析的过程中涉及的变量较少,而...

主成分分析法
主成分分析方法 __河流水质的综合评价 思想:利用降维的思想,把多指标转化为少 数几个综合指标。 在研究多变量问题时,变量太多会增大计 算量和增加分析问题的复杂性,人们自然希望 在进行定量分析的过程中涉及的变量较少,而 得到的信息量又较多。主成分分析是解决这一 问题的理想工具。(主要分析众多变量之间的 相关性) 主成分分析 思想:利用降维的思想,把多指标转化为少 数几个综合指标。 在研究多变量问题时,变量太多会增大计 算量和增加分析问题的复杂性,人们自然希望 在进行定量分析的过程中涉及的变量较少,而 得到的信息量又较多。主成分分析是解决这一 问题的理想工具。(主要分析众多变量之间的 相关性) 例如:在学生学习过程中,已经修完p门课 程,其成绩为x1,x2,…,xp,如何评价每个学生 的 综 合 能 力 ? 假 设 每 门 课 程 有 权 重 c1,c2,…,cp,则加权之和为: s= c1x1+c2x2+…+cpxp 每个学生对应这样一个成绩,假设有n个 学生,其成绩分别为:s1,s2,…,sn。如果这 些值很分散, 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 明每个人的综合能力能很好 地区分。关键是如何确定权重c1,c2,…,cp,在 数学上反映的问题是什么呢? 主成分的几何意义 ⎩⎨ ⎧ +−= += θθ θθ cossin sincos 212 211 xxy xxy x1 x2 x1 x2 y1y2 变换的目的是为了使得n个样本点在y1轴方向上 的离散程度最大,既y1的方差达最大。说明变量y1代 表了原始数据的绝大部分信息,对y2忽略也无损大 局,即由两个指标压缩成一个指标。 一、数据结构 适合用主成分分析的数据具有如下结构: 指 标 主成分分析最大的问题是受量纲的影响,因 此,实际应用中,需要对数据进行 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 化。一般使 用协方差矩阵∑或相关系数矩阵R进行分析。 编号 X1 X2 X3 X4 … … Xm 1 2 3 … n ijx mjni Dx xx x j jij ij ,,2,1,,,2,1,* "" ==−= 样 本 二、主成分的基本思想 设X1,…,XP表示以x1,…,xp为样本观测值的随机 变量,如果能找到c1,…,cp,使得 1 1max ( ... )p pD c X c X+ + 但上述公式必须加上某种限制,否则权值可选择 无穷大而没有意义,通常规定 2 2 1 ... 1pc c+ + = 由于解c1,…,cp是p维空间的一个单位向量,它代 表一个“方向”,称为主成分方向。 二、主成分的基本思想 由于一个主成分不足以代表原来的p个变量的信 息。因此需要寻找第二个乃至第三、四个主成分, 原则上,第二个主成分不应该再包含第一个主成分 的信息,统计上的描述就是让这两个主成分的协方 差为零,几何上就是这两个主成分的方向正交。具 体确定各个主成分的方法如下: 设Zi表示第i个主成分,可设 1 11 1 12 2 1 2 21 1 22 2 2 1 1 2 2 p p p p p p p pp p Z c X c X c X Z c X c X c X Z c X c X c X = + + +⎧⎪ = + + +⎪⎨⎪⎪ = + + +⎩ " " # " 二、主成分的基本思想 确定(c11,…,c1p), 使得maxD(Z1),并且满足 2 2 11 1... 1pc c+ + = 确定 (c21,…,c2p), 使得 maxD(Z2),并且满足 (c21,…,c2p)与(c11,…,c1p)垂直,和 2 2 21 2... 1pc c+ + = 确定 (c31,…,c3p), 使得 maxD(Z3),并且满足 (c31,…,c3p)与(c11,…,c1p), (c21,…,c2p)垂直,和 2 2 31 3... 1pc c+ + = …… 如何确定主成分的个数? 二、主成分的基本思想 在实际研究中,由于主成分的目的是为了降 维,减少变量的个数,故一般选取少量的主成 分(不超过5或6个),只要它们能包含原变量 信息量的80%以上即可。 三、主成分分析的具体实现 设相关矩阵为Rp×p,求特征方程| R-λI | = 0, 其解为特征根λi 将解由小到大进行排序为: 1 2 0pλ λ λ≥ ≥ ≥ >" 1) (ci1,…,cip)实际上是对应于λi的特征向量。若原 变量服从正态分布,则各主成分之间相互独立; 2)全部p个主成分所反映的n例样本的总信息,等于 p个原变量的总信息。信息量的多少,用变量的方差 来度量。 3)各主成分的作用大小是:Z1≥Z2≥…≥Zp; 4)第i个主成分的贡献率是 1 1 0 0 %ip j j λ λ = × ∑ 5)前m个主成分的累计贡献率是: 在应用时,一般取累计贡献率为80%以上 比较好。 1 1 1 0 0 % m i i p j j λ λ = = × ∑ ∑ 四、MATLAB软件实现 [pc, score, variance, t2]=princomp(X) 输入数据矩阵: x1 x2 xp 11 12 1 21 22 2 1 2 p p n n np x x x x x x X x x x ⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ " " # # # # " 一般地,要求n > p。模型: 1 1 2 2T p p z x z x C z x ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥=⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ # #zm要求m < p 。 输出变量: ① pc 主分量zi的系数(ci1,…,cip) ,也叫因子系数;注 意:pcTpc=单位阵 ② score是主分量下的得分值;得分矩阵与数据矩阵 X的阶数是一致的; ③ variance是score对应列的方差向量,即相关系数 矩阵R的特征值;容易计算方差所占的百分比 percent-v = 100*variance/sum(variance); ④ t2表示检验的t2-统计量(主要用于方差分析) 例1: 某医学院测得20例肝病患者的4项肝功 能指标:SGPT(转氨酶)X1 肝大指数X2 ZnT(硫酸锌浊度)X3 AFP(胎甲球)X4 其数据如下表ex1.xls。 OBS X1 X2 X3 X4 1 40 2.0 5 20 2 10 1.5 5 30 3 120 3.0 13 50 4 250 4.5 18 0 5 120 3.5 9 50 6 10 1.5 12 50 7 40 1.0 19 40 8 270 4.0 13 60 9 280 3.5 11 60 10 170 3.0 9 60 11 180 3.5 14 40 12 130 2.0 30 50 13 220 1.5 17 20 14 160 1.5 35 60 15 220 2.5 14 30 16 140 2.0 20 20 17 220 2.0 14 10 18 40 1.0 10 0 19 20 1.0 12 60 20 120 2.0 20 0 zcf.m 数据未标准化的计算结果: pc = 0.9998 0.0071 -0.0179 -0.0091 0.0082 -0.0055 -0.0469 0.9989 0.0184 -0.0249 0.9984 0.0466 0.0066 -0.9996 -0.0247 -0.0067 variance = 1.0e+003 *[ 7.9046 0.4786 0.0522 0.0004]; t2 =[ 2.9602 3.2317 1.5008 9.6644 3.2463 2.6023 2.0675 3.9587 5.1659 2.3459 1.4789 4.9255 5.5928 8.4165 1.7758 1.0442 4.3163 4.2880 3.8299 3.5884]; R = 1.0000 0.6950 0.2195 0.0249 0.6950 1.0000 -0.1480 0.1351 0.2195 -0.1480 1.0000 0.0713 0.0249 0.1351 0.0713 1.0000 (相关系数矩阵) score = -98.2666 15.0539 -7.8344 0.2006 -128.1984 4.8485 -7.5223 -0.0946 -17.9323 -14.5758 -2.0656 0.6464 111.8154 36.1911 1.7700 1.5374 -18.0019 -14.4790 -6.0827 0.9595 -127.9383 -15.3188 -1.0280 0.0971 -97.8856 -5.2821 5.6958 -0.2805 132.1077 -23.5196 -5.0403 0.2205 142.0644 -23.3965 -7.1924 -0.4626 32.0482 -24.1200 -7.2001 -0.0597 42.0113 -4.1837 -1.9154 0.7167 -7.6292 -14.9231 14.7760 0.3492 81.9100 16.0278 0.9537 -1.3687 22.5176 -24.8297 19.0082 -0.2560 81.9285 6.1005 -2.3359 -0.5769 1.9875 15.3860 5.3551 -0.0055 81.7933 26.0963 -1.8177 -0.9418 -98.3136 34.9280 -2.3006 -0.4308 -117.8791 -25.2419 -1.4306 -0.5601 -18.1390 35.2379 6.2072 0.3100 数据标准化的计算结果: Z=zscore(X); z1 z2 z3 z4 pc = x1 -0.7000 0.0950 0.2400 0.6659 x2 -0.6898 -0.2836 -0.0585 -0.6636 x3 -0.0879 0.9042 0.2703 -0.3189 x4 -0.1628 0.3050 -0.9305 0.1208 score (略) variance =[ 1.7183 1.0935 0.9813 0.2069]; t2 =[2.9602 3.2317 1.5008 9.6644 3.2463 2.6023 2.0675 3.9587 5.1659 2.3459 1.4789 4.9255 5.5928 8.4165 1.7758 1.0442 4.3163 4.2880 3.8299 3.5884]; Mean 138.0 2.325 15.0 35.5 Std 88.887 1.055 7.4197 21.8788 ⎪⎪⎩ ⎪⎪⎨ ⎧ +−−= −+−= ++−= −−−−= 43214 43213 43212 43211 x1208.0x3189.00.6636x0.6659xZ x9305.0x2703.00.0585x0.24xZ x305.0x9042.00.2836x0.095xZ x1628.0x0879.00.6898x0.7xZ 说明:系数的绝对值越大,该主成分受该指标的影响 就越大。有如下解释: ① Z1:x1,x2,指急性炎症;(由实际问题解释) ② Z2:x3, 指慢性炎症; ③ Z3:x4, 指向原发性肝癌可疑; (前三项综合指标的信息量已经达到94.828%) 应用: 若测得某一个肝炎病人的4项指标分别 为:X1=50,X2=2.0,X3=31,X4=45,如何 判断该病人患病情况? 计算结果:(得分值) Z1=-0.6452 , Z2=2.075* , Z3=0.0407 , Z4=1.0899。 由此诊断该患者肝炎症类型很可能为慢性。 归纳: 1、主成分能降低所研究的数据空间的维数; 2、有时可通过因子负荷cij的结构,弄清x变 量间的某些关系; 3、多维数据的一种图形表示方法;(选取前 两个主成分或某两个主成分根据得分,画出n 个样品在二维平面上的分布情况,由图形可直 观地看出各样品在主分量中的地位,进而对样 品进行分类处理。 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 z1 z2 得分值最高 例2:河流水质综合评价 水质评价是环境质量评价的一个方面, 用数学模型方法进行这方面的定量化研究, 是有意义的。目前常见的方法主要有: 1)简单指数法; 2)分级加权评分法; 3)概率统计法; 4)模糊数学法等等。 R=corrcoef(X)主要计算结果及分析 1、计算相关系数矩阵R 显然,x1,x2,x3,x6,x10具有较强的相关性,这 些指标均属于有机污染指标;指标X4、X5、 X7、X8之间具有较强的相关性,而这些指标 属于无机污染指标。X9为一特殊的无机污 染指标,与其它指标相关性较弱。 1.0000 0.8674 0.8360 0.3622 0.3367 0.7520 0.4569 0.1938 1.0000 0.9042 0.1324 0.4219 0.5451 0.1631 -0.0525 1.0000 0.0136 0.2503 0.4716 0.0642 -0.1767 1.0000 0.5900 0.3914 0.8557 0.8576 1.0000 0.2055 0.4932 0.4270 1.0000 0.5980 0.1904 1.0000 0.7934 1.0000 -0.0122 0.7746 -0.1275 0.6806 0.0336 0.7271 0.1842 0.0227 -0.1381 0.0155 -0.3940 0.5424 -0.0949 0.1019 0.1053 -0.1413 1.0000 0.0537 1.0000 2、计算R的特征值: variance = 4.6031 2.9169 1.3024 0.8673 0.2516 0.2407 0.1097 0.0639 0.0501 0.0167 由于前四个特征值对应的累计方差贡献率已 达92.97%,故前四个主成分已反映原始指标所提供 的绝大部分信息,可利用它们对各断面水质污染 程度进行评价。 3、计算前四个主成分 z1= 0.453x1+0.391x2+0.354x3+0.275x4+0.245x5+0.38x6+0.312x7+ 0.18x8-0.049x9+0.324x10 z2=-0.142x1-0.266x2-0.34x3+0.461x4+0.222x5-0.02x6+0.412x7+ 0.511x8+0.048x9-0.318x10 z3=0.088x1+0.026x2+0.164x3+0.162x4-0.053x5-0.355x6-0.102x7+ 0.108x8+0.873x9+0.158x10 z4=-0.094x1+0.31x2+0.188x3-0.016x4+0.741x5-0.399x6+0.206x7- 0.077x8-0.11x9-0.303x10 由线性表达式中系数的大小及符号,可对各主成分的实际 意义作如下解释:第一主成分为除x9以外的其它九项指标的综 合;第二主成分则与五项无机污染指标成正相关,而与五项有机 污染指标负相关;第三、四主成分又分别体现x9、x5的信息 相对多一些。 4、计算主成分得分及综合得分 最后计算出二十个样点的主成分得分及综合 得分,给予各断面水质污染程度的定量化描述,得 分越大,表明污染程度越严重,由此便可对样点就 污染程度进行排序和分级,具体结果见下表: 注意:计算综合得分的计算公式: 1 1 2 2 3 3 4 44 1 1 ( ) i i z z z z zλ λ λ λ λ = = + + + ∑ -1.5617 -0.3688 -0.9731 -0.7338 -0.8432 0.1202 -0.9083 -0.3653 -0.3593 -0.3487 -0.9751 0.4668 2.7294 -1.9184 0.6527 -0.7517 0.8939 0.2514 -0.5317 0.2199 -0.7640 0.2122 -0.6039 2.5833 -2.0988 -0.2478 0.8159 -0.2530 -1.7475 -0.2013 1.6310 0.1972 -1.6472 -0.3429 2.0538 -0.0495 -1.5009 -0.4680 2.3146 -0.1659 -0.6195 -0.1772 -0.6743 -0.1004 -2.1082 -0.1929 0.9544 0.0945 0.4687 0.1046 -0.8578 0.6407 -1.2986 -0.0216 -1.1534 0.5675 6.1050 -3.3352 0.6344 1.0350 -0.1401 -0.5177 -1.2313 -1.1071 0.9488 -1.2404 -0.8150 -2.1838 -1.0552 1.1410 -0.4953 0.0353 0.5226 1.7637 -0.8608 0.3481 4.0756 5.7879 1.0232 -0.4778 z1 z2 z3 z4 综合得分z 排序 污染程度分级 -1.0494 17 轻 -0.5192 10 轻 -0.3649 7 轻 0.7396 2 重 0.4486 3 中 -0.1490 5 中(轻) -0.9846 16 轻 -0.6539 13 轻 -0.6141 12 轻 -0.5576 11 轻 -0.4473 8 轻 -0.9228 15 轻 0.1962 4 中 -0.7277 14 轻 2.0741 1 严重 -0.4870 9 轻 -0.2277 6 轻 -0.2212 0.6947 3.7732 Ⅰ Ⅱ Ⅲ 总结: 关于主成分的实际意义要结合具体问题 和有关专业知识才能给出合理的解释。虽然 利用主成分本身可对所研究的问题在一定程 度上作分析,但主成分分析本身往往并不是 最终目的,更重要的是利用主成分综合原始 变量的信息,达到降维的目的,然后对数据 作进一步的分析,如回归分析、聚类分析、 判别分析等。
本文档为【主成分分析法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_085298
暂无简介~
格式:pdf
大小:139KB
软件:PDF阅读器
页数:30
分类:
上传时间:2011-12-01
浏览量:58