多元统计分析建模

多元统计分析建模统计与应用数学学院STATISTICS&APPLIEDMATHEMATICS多元统计分析建模方法李柏年刘德志目录一二三四五聚类分析主成分分析典型相关分析历史建模试题数据处理方法Box-Cox变换是统计建模中常用的一种数据变换，用于连续的响应变量不满足正态分布的情况。比如在使用线性回归的时候，由于残差不符合正态分布而不满足建模的条件，这时候要对响应变量进行变换，把数据变成正态的。1.boxcox变换(x>0)其中x为原始数据，y为变换后的数据.数据处理方法一在MATLAB中，上述变换的命令如下：[t,l]=boxco...

统计与应用数学学院STATISTICS&APPLIEDMATHEMATICS多元统计分析建模方法李柏年刘德志目录一二三四五聚类分析主成分分析典型相关分析历史建模试题数据处理方法Box-Cox变换是统计建模中常用的一种数据变换，用于连续的响应变量不满足正态分布的情况。比如在使用线性回归的时候，由于残差不符合正态分布而不满足建模的条件，这时候要对响应变量进行变换，把数据变成正态的。1.boxcox变换(x>0)其中x为原始数据，y为变换后的数据.数据处理方法一在MATLAB中，上述变换的命令如下：[t,l]=boxcox(x)其中x是原始数据(列向量)，t是变换以后的数据，l是变换公式中参数的数值例1.1949—1991淮河流域成灾面积说明如何利用上述的变换使得数据从不具备正态分布到符合正态分布.图11949—1991淮河流域成灾面积qq图QQ图的作用用于直观验证一组数据是否来自某个分布，或者验证某两组数据是否来自同一（族）分布。在教学和软件中常用的是检验数据是否来自于正态分布。把已知分布的分位数标在纵轴上，样本分位数标在横轴上，从图形上可以了解到分布的信息。图形是直线说明是正态分布。图形中有一段是直线，在两端存在弧度，说明峰度的情况。图形是曲线图，说明不对称。如果Q-Q图是直线，当该直线成45度角并穿过原点时，说明分布与给定的正态分布完全一样。如果是成45度角但不穿过原点，说明均值与给定的正态分布不同，如果是直线但不是45度角，说明均值与方差都与给定的分布不同。如果Q-Q图中间部分是直线，但是右边在直线下面，左边在直线上面，说明分布的峰度大于3，反之说明峰度小于3.从图上可以看出散点并不聚集在直线上，因此流域成灾面积（原始数据）不服从正态分布，这一点也可以通过jbtest检验来证实.但是通过变换以后的图形如图2所示，显然数据服从正态分布.图2流域成灾面积（变换后数据）qq图X1X2X3X4X5X6X7X88.3523.537.518.6217.42101.0411.219.2523.756.619.1917.7710.481.7210.518.1930.54.729.7816.287.62.5210.327.7329.25.429.4319.298.492.52109.4227.98.28.1416.179.421.559.769.1627.989.019.3215.999.11.8211.3510.0628.6410.5210.0516.188.391.9610.819.0928.127.49.6217.2611.122.4912.659.4128.25.7710.816.3611.561.5312.178.728.127.2110.5319.4513.31.6611.966.9329.854.549.4916.6210.651.8813.618.6736.057.317.7516.6711.682.3812.889.9837.697.018.9416.1511.080.8311.676.7738.696.018.8214.7911.441.7413.238.1437.759.618.4913.159.761.2811.287.6735.718.048.3115.137.761.4113.257.939.778.4912.9419.2711.052.0413.297.1840.917.328.9417.612.751.1414.88.8233.77.5910.9818.8214.731.7810.16.2535.024.726.2810.037.151.9310.3910.652.417.79.9812.5311.72.3114.697.2752.653.849.1613.0315.261.9814.5713.4555.855.57.459.559.522.2116.310.8544.687.3214.5117.1312.081.2611.577.2145.797.6610.3616.5612.862.2511.697.6850.3711.3513.319.2514.592.7514.877.7848.44820.5122.1215.731.1516.617.9439.6520.9720.8222.5212.411.757.98.2864.34822.2220.0615.120.7222.8912.4776.395.5211.2414.52225.4625.5 表 1.1991各地区居民月人均消费数据下面以人均粮食支出x1为例，进行正态检验。x1=[8.359.258.197.739.429.1610.069.099.418.706.938.679.986.778.147.677.907.188.826.2510.607.2713.4510.857.21,...7.687.787.948.2812.47];[h,p]=jbtest(x1)[y,t]=boxcox(x1');[h,p]=jbtest(y)数据类型hp是否拒绝正态分布原始数据10.0112是变换数据00.9766否表2.正态检验例2做出x1,x3的散点图，可否区别开？解：输入原始数据a=[8.3523.537.518.6217.42101.0411.21,…,12.4776.395.5211.2414.52225.4625.5];plot(a(:,3),'+'),holdon,plot(a(:,1),'or'),legend('x3','x1')图3x1,x3的散点图[y3,t3]=boxcox(a(:,3));[y1,t1]=boxcox(a(:,1));plot(y3,'+'),holdon,plot(y1,'or'),legend('y3','y1')图4变换后散点图练习：对1991年人均消费数据练习boxcox变换与正态分布检验2.其他变换公式标准化：设有数据x=(x1,x2,…,xn)MATLAB命令：y=zscore(x)规格化：设有数据x=(x1,x2,…,xn)[0,1]之间MATLAB:y=(x-min(x))./range(x)如果x为m行n列矩阵，列为指标，则命令为：y=(x-ones(m,1)*min(x))./[ones(m,1)*range(x)]此时y仍然是m行n列的一个矩阵.模糊交集与模糊并集设x=(x1,x2,…xn),y=(y1,y2,…,yn),xi,yi[0,1]爱因斯坦积：爱因斯坦和：注意：zi,wi仍然[0,1]，且有zi 方案准确地分为各自所属的类别.例3.2007年安徽省各地市工业企业效益指标如下表所示，请利用模糊C均值聚类方法分为三类。地区工业总产值工业增加值实收资本业务收入业务成本利润总额合肥市1099.82356.03191.241020.77823.4543.72淮北市239.27112.4279.80266.74202.254.07亳州市116.2344.7114.4165.8149.173.34宿州市109.0640.6414.18112.3497.32-1.10蚌埠市218.3882.2258.42202.28150.3512.39阜阳市192.0366.0033.02183.78133.8118.04淮南市300.09141.61120.09310.51239.8319.36滁州市248.4387.1747.61230.67185.7116.26六安市136.2457.8817.81128.5094.2610.15马鞍山687.38260.28180.80761.63653.1735.29巢湖市172.2852.7536.31166.52114.5812.78芜湖市674.33166.80100.15648.34566.8336.52宣城市160.9240.7922.72151.54126.449.89铜陵市513.95151.6963.52651.15571.0027.90池州市28.0111.268.2125.2119.143.68安庆市363.2676.7157.50372.97327.6115.90黄山市32.748.809.2231.4125.672.22表3.安徽工业企业数据b=[39.63,…];%输入数据作为一个矩阵[center,U,fcn]=fcm(b,3)；%模糊C均值聚类解：Matlab中计算的程序如下得到输出的结果为：center=746.0614237.5902141.0734769.5504653.425036.2240281.0558104.409275.5785287.9557230.567613.9213118.704341.051719.6115107.827883.16356.7159此时，center的每一行就是每一类最终的中心坐标，由效益型指标可知：第一行表示效益最好的一类，第三行表示效益最差的一类，第二行则介于两者之间。U=0.80820.00410.00220.00030.01220.01030.00710.00800.00100.11540.94790.02480.00470.58270.31440.95790.85230.01610.07640.04800.97300.99500.40510.67530.03510.13960.98290.98610.00640.88960.00470.70690.01170.04670.01050.00910.14820.07520.09870.20460.09440.84570.08720.00480.84540.03530.89660.08850.89390.10760.9023U共有17列，每一列表示一个地区关于三类的隶属度，每一列最大值所在的行数即为该地区的类别。Y=sort(U);[Y,I]=sort(U);%排序L1=find(I(3,:)==1),L2=find(I(3,:)==2),L3=find(I(3,:)==3),%检索下面给出MATLAB检索类别的方法：此时，Li输出的是第i类的样本号码(即原始数据行号)表4.2001-2005年灾情数据年份死亡人口（人）紧急转移安置人口（万人）倒塌房屋（万间）直接经济损失（亿元）2005年24751570.3226.42042.12004年2250563.3155.01602.32003年2259707.3343.01884.22002年2384471.8189.51637.22001年2538211.192.21942.2上网查找2005年以后的数据，然后分为三类：灾害较重，灾害一般，灾害较轻.主成分分析三主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异，将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少，能解释大部分资料中的变异的几个新变量，即所谓主成分，并用以解释资料的综合性指标。由此可见，主成分分析实际上是一种降维方法。主成分分析用于投资组合风险管理，企业效益的综合评价，图像特征识别，机械加工或传感器故障检测，灾害损失分析。如果将主成分分析技术与聚类分析、判别分析以及回归分析方法相结合则可以解决更多实际问题。1.主成分的基本思想设x1,x2,…,xp，为p个n维随机变量（p项指标）在统计学中，经常使用原始指标的线性组合所构成的综合指标来代替原有的指标，即要求Yi尽可能地反映原有P个变量的信息.这里的‘信息’用Yi方差来度量，即要求var(Yi)=l1Tl1达到最大，为此我们需要对系数向量加以限制即满足约束条件：求l1使var(Y1)取最大值，由此l1所确定的随机变量Y1称为随机变量的第一主成分.如果第一主成分Y1还不足以反映原变量的信息，则进一步求Y2,为了使Y1和Y2所反映原变量的信息不相重叠，要求Y1和Y2不相关，即于是,在约束条件下，求l2使得var(Y2)达到最大，由此所确定的随机变量Y2称为的第二主成分.一般地，求第i个主成分Yi，则要求其系数及主成分满足以下条件：（1）系数向量是单位向量，即（2）不同的主成分不相关，没有重叠信息,即（3）各主成分的方差递减，重要性递减,即Y1,Y2,…,Yp依次称为第一主成分，第二主成分，…，第p个主成分.①无量纲化2.主成分分析的计算步骤设有n个样本，p项指标的数据矩阵令则实现无量纲化在MATLAB中：Y=X./[ones(n,1)*std(X)]②构造矩阵Y的实对称矩阵，通常用协方差矩阵或相关系数矩阵R.③计算或R的特征值与相应的特征向量；④根据特征值计算累计贡献率（85%），确定主成分的个数，而特征向量就是主成分的系数向量.MATLAB:=cov(Y),R=corrcoef(Y)[V,D]=eig(R)%D为对角矩阵,主对角为特征值，V的每一列为特征值对应的特征向量.⑤计算主成分的数值（即主成分得分）注意：利用第一主成分得分排序要满足两个条件：最大特征值对应的特征向量是正向量；贡献率>50%地区x1x2x3x4x5x6合肥市1932.271900.53653.83570.951810.70119.53淮北市367.05366.08186.16252.07395.4332.82亳州市86.8985.3840.8551.7183.268.95宿州市154.27147.0730.6857.96146.30-1.27蚌埠市197.21193.28104.5690.15182.607.85阜阳市244.17231.5556.37121.96224.0426.49淮南市497.74483.69206.80501.37496.5927.76滁州市308.91296.99118.6576.90277.4219.32六安市191.77189.0570.1962.31191.9823.08马鞍山市905.32894.61351.52502.991048.0253.88巢湖市254.99242.38106.6675.48234.7619.65芜湖市867.07852.34418.82217.76806.9437.01宣城市219.36207.0782.5854.74192.7411.02铜陵市570.33563.33224.23190.77697.9120.61池州市59.1157.3216.9740.3356.566.03安庆市430.58426.25103.08147.05442.040.79黄山市65.0364.3628.388.5860.482.88例4.根据x1工业总产值，x2工业销售产值，x3流动资产年平均余额，x4固定资产净值年平均余额，x5业务收入,x6利润总额等六项指标进行主成分分析.(1)选取指标是否合适？（2）给出各市大中型工业企业排名。表5.安徽工业数据解：首先输入数据A=[data];%data即表中数据R=corrcoef(A);得到的相关系数矩阵为：由于r12=r21=1，表明指标x1,x2完全线性相关，故只需保留一个指标.A=A(:,2:6)./[ones(17,1)*std(A(:,2:6))];%消除量纲[d,v]=eig(corrcoef(A));%计算特征值与特征向量w=sum(d)/sum(sum(d));%计算贡献率F=[A-ones(17,1)*mean(A)]*v(:,5);%计算主成分得分[F1,I1]=sort(F,'descend');%I1给出各名次的序号[F2,I2]=sort(I1);%I2给出各市排名特征值特征向量贡献率4.6100(0.4595,0.4552,0.4158,0.4600,0.4441)0.92200.2475(-0.2517,-0.2103,0.9054,-0.1315,-0.2354)0.04950.1050(0.1926,0.3702,-0.0390,0.3029,-0.8559)0.02100.0322(-0.3510,0.7779,0.0275,-0.5153,0.0738)0.00640.0053(0.7518,-0.0803,0.0719,-0.6434,-0.0965)0.0011表6.特征值、特征向量及贡献率地区得分排名地区排名得分地区得分排名合肥18.671淮南50.642宣城-2.64711淮北1.6364滁州10-1.017铜陵-0.7638亳州-3.05412六安7-0.278池州-3.62814宿州-5.06317马鞍山25.774安庆-4.65816蚌埠-3.27113巢湖9-0.952黄山-4.24715阜阳0.9326芜湖32.459表7.各市第一主成分得分排名练习：1.根据软件输出结果，写出第一、第二主成分的公式；2.将各地区分成三类，比较主成分排名与分类是否具有一致性？3.因子载荷矩阵例4得到第一主成分公式为F1=0.4595x2+0.4552x3+0.4158x4+0.46x5+0.4441x6我们称主成分Yi与指标Xj的相关系数为Yi在Xj上的因子载荷量.因子载荷用于解释第j个变量对第i个主成分的重要程度.计算可得第一主成分与五个指标的载荷分别为：0.98670.97730.89270.98760.9535典型相关分析三四在实际问题中，经常遇到研究两组随机变量之间的相关性.比如工厂管理人员需要了解原料的主要质量指标与产品的主要质量指标之间的相关性，以便提高产品质量；医生要根据一组化验指标确定与一些疾病之间的关系；主教练排兵布阵要考虑自己的队员与对手之间的相生相克以便制定更好的对策，等等.受主成分分析的启发，对每组变量分别构造线性组合，将两组变量之间的相关性转化为两个变量之间的相关性进行研究.典型相关分析示意图如图4.7所示.图4.7典型相关分析示意图1.总体典型变量的定义设有两组随机变量(XT,YT)T=(X1,X2,…,Xp,Y1,Y2,…,Yq)T的协方差矩阵为11=cov(X)，22=cov(Y),12=T21=cov(X,Y)注意：的维数p+q阶方阵,11p阶方阵,22q阶方阵根据典型相关的思想，分别考虑X,Y的线性组合其中a1=(a11,a12,…,a1p)T,b1=(b11,b12,…,b1q)TVar(U1)=a1T11a1,Var(V1)=b1T22b1,cov(U1,V1)=a1T12b1由于则U1,V1的相关系数为在约束条件a1T11a1=b1T22b1=1下，求a1,b1，使得u1,v1=a1T12b1取得最大值.如果(U1,V1)还不足以反映X,Y之间的相关性，还可构造第二对线性组合：使得(U1,V1)与(U2,V2)不相关，即cov(u1,u2)=cov(u1,v2)=cov(u2,v1)=cov(v1,v2)=0在约束条件Var(u1)=Var(v1)=Var(u2)=Var(v2)=1下求a2,b2，使得u2,v2=a2T12b2取得最大值.一般地，若前k-1对典型变量还不足以反映X,Y之间的相关性，还可构造第k对线性组合：在约束条件Var(uk)=Var(vk)=1,及cov(uk,uj)=cov(uk,vj)=cov(vk,uj)=cov(vk,vj)=0,(1j

                    本文档为【多元统计分析建模】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

多元统计分析建模

你可能还喜欢