首页 数据分析方法MATLAB实现课件

数据分析方法MATLAB实现课件

举报
开通vip

数据分析方法MATLAB实现课件*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析普通高等院校计算机课程规划教材MATLAB数据分析方法李柏年吴礼斌主编张孔生丁华参编*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析第2章数据描述性分析数据描述性分析是从样本数据出发,概括分析数据的集中位置、分散程度、相互关联关系等,分析数据分布的正态或偏态特征.描述性分析是进行数据进一步分析的基础.对不同类型量纲的数据有时还要进行变换,然后再作出合理分析.本章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变...

数据分析方法MATLAB实现课件
*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析普通高等院校计算机课程规划教材MATLAB数据分析方法李柏年吴礼斌主编张孔生丁华参编*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析第2章数据描述性分析数据描述性分析是从样本数据出发,概括分析数据的集中位置、分散程度、相互关联关系等,分析数据分布的正态或偏态特征.描述性分析是进行数据进一步分析的基础.对不同类型量纲的数据有时还要进行变换,然后再作出合理分析.本章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变换等内容.2.1基本统计量与数据可视化2.1.1样本数据的基本统计量描述数据基本特征主要为集中位置和分散程度。设从所研究的对象(即总体)X中观测得到n个观测值*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析1.均值、中位数、分位数与三均值数据(x1,x2,…,xn)的平均值称为该数据的均值,记为x1,x2,…,xn这n个值称为样本数据,简称数据,n称为样本容量.我们的任务就是要对样本数据(2.1.1)进行分析,提取数据中所包含的有用的信息,从而进一步对总体的特性作出推断.(2.1.1)(2.1.2)样本均值描述了数据取值的平均位置.样本均值计算简易,但易受异常值的影响而不稳健.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析又将数据(2.1.1)按从小到大的次序排列,排序为k的数记为x(k)(1kn),即x(1)x(2)…x(n),称(2.1.3)为数据(2.1.1)的次序统计量.由次序统计量定义数M,称M为数据(2.1.1)的中位数。(2.1.4)中位数是描述数据的中心位置的数字特征,若数据的分布对称,则均值与中位数比较接近。若数据的分布为偏态,则均值与中位数差异会较大。中位数的一个显著特点是受异常值的影响较小,具有较好的稳健性.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析设0p<1,样本数据(2.1.1)的p分位数定义为(2.1.5)其中[np]表示np的整数部分.显然,当p=0.5时,M0.5=M,即数据的0.5分位数等于其中位数.一般来说,从整批数据(总体)中抽取样本数据,则整批数据中约有100p%个不超过样本数据的p分位数.在实际应用中,0.75分位数与0.25分位数比较重要,它们分别称为上、下四分位数,记为Q3,Q1.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析虽然均值与中位数都是描述数据集中位置的数字特征,但是均值用了数据的全部信息,中位数只用了部分信息(位置信息),因此通常情况下均值比中位数有效.当数据有异常值时,中位数比较稳健。为了兼顾两者的优势,因此人们提出三均值的概念,定义三均值如下:(2.1.6)由定义可知:三均值是上四分位数、中位数与下四分位数的加权平均,即分位数向量(M0.25,M,M0.75)与权向量为w=(0.25,0.5,0.25)的内积。*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析MATLAB提供了求均值、中位数、分位数的命令.(1)均值命令mean,其调用格式m=mean(X);其中,输入X为样本数据(2.1.1),输出m为样本均值。(2)中位数命令median,其调用格式MD=median(X);其中输入参数X是样本数据(2.1.1),输出MD为中位数.(3)P分位数命令prctile,其调用格式SM=prctile(X,P);其中输入参数X是样本数据(2.1.1),P为介于0至100间的整数,P=100*p,输出SM为P%分位数。*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析注意:当样本数据X是矩阵时,上述三个命令的输出将给出X的每列数据的相对应的数值,参见例2.1.1.(4)根据分位数命令及公式(2.1.6),可编写求三均值的MATLAB程序如下。w=[0.25,0.5,0.25];%输入权向量wSM=w*prctile(X,w);%由(2.1.5)式计算X三均值例2.1.1.根据安徽省统计年鉴数据(表2.1)计算各指标均值、中位数以及三均值.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析项目6数据描述性分析例6-1表6-1是某省各市森林资源情况统计数据,计算各指标均值、中位数以及三均值。 地区 林业用地面积(khm2) 森林面积(khm2) 森林覆盖率(%) 活立木总蓄积量(m3*104) 森林蓄积量(m3*104) A 53.93 50.98 15.48 256.00 65.41 B 44.92 40.38 14.99 211.07 151.14 C 148.19 145.54 17.10 842.09 677.52 D 293.86 279.86 28.80 1238.01 1035.67 E 86.96 74.64 12.91 302.67 299.32 F 791.50 680.96 77.80 3298.56 3252.88 G 598.92 546.67 35.60 2291.09 2099.21*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析项目6数据描述性分析1、导入数据(方法一)原始数据是excel文件:data=xlsread('d:\ys');%导入数据;(方法二)或先将excel文件放到work文件夹中,再B=xlsread('yuanshishuju.xls')(方法三)如果数据文件保存在excel的某个sheet中,我们的使用方式为:A=xlsread('data.xlsx','Sheet1');2、导出数据用save'b.txt'B-ascii%(把矩阵B的数据,导出到了TXT文件中,名字为b.txt),注意空格,-ascii前有空格。xlswrite('a.xls',a)即可读到excel文件中注意:(a是文件名,注意单引号必须英文状态下输入)这里的Excel都是Microsoftoffice中的Excel,对于wps的Excel,MATLAB无法读取在进行文件读取时,请先关闭所要读取的数据文件将数据写入Excel之前,请先删除同名Excel文件,以免数据覆盖,造成数据丢失*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析解:将表6-1的数据作为一个矩阵AA输入当前窗口,然后对矩阵AA调用有关命令函数,程序如下:AA=[53.93 50.98 15.48 256.00 65.4144.92 40.38 14.99 211.07 151.14148.19 145.54 17.10 842.09 677.52293.86 279.86 28.80 1238.01 1035.6786.96 74.64 12.91 302.67 299.32791.50 680.96 77.80 3298.56 3252.88598.92 546.67 35.60 2291.09 2099.21];M=mean(AA);MD=median(AA);w=[0.25,0.5,0.25];SM=w*prctile(AA,[0.25;0.5;0.75]);[M;MD;SM]*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析输出结果如下:>>M_MD_SM%M文件名ans=1.0e+03*0.28830.25990.02901.20561.08300.14820.14550.01710.84210.67750.04490.04040.01290.21110.0654即如表6-2所示。*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析表6-2某省森林资源均值、中位数与三均值 统计量 林业用地面积(khm2) 森林面积(khm2) 森林覆盖率(%) 活立木总蓄积量(m3*104) 森林蓄积量(m3*104) 均值 288.3 259.9 29.0 1205.6 1083.0 中位数 148.2 145.5 17.1 842.1 677.5 三均值 44.9 40.4 12.9 211.1 65.4*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析2.方差与变异系数方差是描述数据取值分散性的一种度量,它是数据相对于均值的偏差平方的平均.样本数据(2.1.1)的方差记为(2.1.7)其算术平方根称为标准差或根方差,即(2.1.8)*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析刻画数据x1,x2,…,xn相对分散性的指标可以用变异系数,其计算公式为(2.1.9)变异系数是一个无量纲的量,一般用百分数表示.在MATLAB中,计算方差命令var,调用格式S=var(x);计算标准差命令std,调用格式d=std(x)其中输入x是样本数据,输出S为方差,d为标准差.当输入x是矩阵时,输出x每列数据的方差与标准差.由均值与方差命令,可设计变异系数的计算程序为v=std(x)./mean(x),或者v=std(x)./abs(mean(x))当输入x是矩阵时,输出x每列数据的变异系数.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.1.2.计算例2.1.1中各指标的方差、标准差与变异系数解:将表2-1中的数据粘贴到MATLAB软件A=[53.93,…,3252.88];%粘贴原始数据M=mean(A);%计算各指标均值D=var(A);%计算各指标方差SD=std(A);%计算各指标标准差V=SD./abs(M)%计算各指标变异系数[D;SD;V]%输出计算结果表2.3安徽省森林资源方差、标准差与变异系数(2008年) 统计量 林地面积 森林面积 森林覆盖率 活立木总蓄积量 森林蓄积量 方差 75464.48 59198.14 394.49 1065554.98 1040590.73 标准差 274.71 243.31 19.86 1032.26 1020.09 变异系数 1.01 1.01 0.74 0.96 1.07*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析3.样本的极差与四分位极差极差的计算公式为:它是表示数据的分散性的数字特征.MATLAB中公式为:max(data)-min(data),或range(data)上、下四分位数Q3,Q1之差称为四分位极差,即R1=Q3-Q1MATLAB中计算数据data的公式为:iqr(data)4.异常点判别先求上、下截断点:R上=Q3+1.5R1,R下=Q1-1.5R1小于R下或大于R上的数据均为异常值.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.1.3根据2007年华东地区各高校教职工数据,计算专任教师、行政人员、教辅人员以及工勤人员占在职教工的百分比,以及百分比的极差、四分位极差以及上、下截断点.表2.42007年华东地区各高校教职工数据 地区 在职教工 专任教师 行政人员 教辅人员 工勤人员 上海 61385 35480 10282 7842 7781 江苏 134215 88568 20172 13371 12104 浙江 67763 45622 10960 6798 4383 安徽 59149 40743 7278 5763 5365 福建 47864 31385 7712 5034 3733 江西 63392 45153 8179 5495 4565 山东 120996 81889 16342 11614 11151*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析解:A=[61385 35480 10282 7842 7781134215 88568 20172 13371 1210467763 45622 10960 6798 438359149 40743 7278 5763 536547864 31385 7712 5034 373363392 45153 8179 5495 4565120996 81889 16342 11614 11151];B=A(:,2:5)./[A(:,1)*ones(1,4)];%计算百分比R=range(B);%计算极差R1=iqr(B);%计算四分位极差XJ=prctile(B,[25])-1.5*R1;%计算下截断点SJ=prctile(B,[75])+1.5*R1;%计算上截断点5.偏度与峰度偏度是用于衡量分布的不对称程度或偏斜程度的指标.随机变量的偏度是变量的三阶中心矩除以标准差的三次方,计算样本的偏度公式为:*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析其中u3,s分别表示数据的3阶中心矩与标准差.Matlab计算数据偏度的命令为:skewness(data,0)正态分布的偏度为零,若pd<0称分布具有负偏离,也称左偏态,此时数据位于均值右边的比位于左边的多;若pd>0称分布具有正偏离,也称右偏态,情况相反;而偏度接近0则可认为分布是对称的.若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析峰度峰度用来衡量数据尾部分散性,正态分布峰度为零,峰度>0,则厚尾,峰度<0,则细尾,在金融时间序列分析中,通常要研究数据是否为尖峰、细腰、厚尾等特性。随机变量的峰度是变量的四阶中心矩除以标准差的四次方,计算样本的峰度公式为:其中u4,s分别表示数据的4阶中心矩与标准差.Matlab计算峰度的命令为:kurtosis(data,0)-3.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.1.4计算1995年1月3日至1999年4月1日IBM公司股票开盘价、最高价、最低价、收盘价以及成交量的偏度、峰度.解:首先在MATLAB编辑窗口键入ibm=ascii2fts('ibm9599.dat',1,3,2);得到数据共有六列,分别为:日期、股票开盘价、最高价、最低价、收盘价以及成交量数据.然后键入tsmat=fts2mat(ibm);%提取ibm数据的后五列数据矩阵pd=skewness(tsmat,0);%计算偏度fd=kurtosis(tsmat,0)-3;%计算峰度[pd;fd]%输出计算结果subplot(221),histfit(tsmat(:,1)),title('open')%做开盘价直方图subplot(222),histfit(tsmat(:,2)),title('high')%做最高价直方图subplot(223),histfit(tsmat(:,3)),title('low')%做最低价直方图subplot(224),histfit(tsmat(:,4)),title('close')%做收盘价直方图*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析表2.5IBM公司股票偏度与峰度.由于正态分布的偏度与峰度都应等于零,从表1.5可知IBM公司股票各指标均不服从正态分布.上述数据的直方图(图1.1)也验证了这一点.图2.1IBM公司股票直方图 统计量 开盘价 最高价 最低价 收盘价 成交量 偏度 0.9347 0.8898 0.9078 0.8912 2.9448 峰度 0.1745 -0.0236 0.0018 -0.0225 16.2246*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析2.1.2样本数据可视化1.可视化数据可视化是指数据的图形表示。借助几何图形可形象说明数据的特征与分布情况。常用的图形有条形图、直方图、盒图、阶梯图和火柴棒图等.(1)条形图.条形图是用宽度相同的直线条的高低或长短来表示统计指标数值的大小.条形图根据表现资料的内容可分为单式条形图、复式条形图和结构条形图.单式条形图反映统计对象随某一因素变化而改变的情况.复式条形图可以反映统计对象随两个因素变动而变动的情况.结构条形图则反映不同统计对象内部结构的变化情况.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析在MATLAB中,绘制条形图命令bar,调用格式①bar(X)②bar(x,Y)①作样本数据X的条形图;②x的元素在横坐标轴上按从小到大排列,作Y和x对应的条形图.(2)直方图.将观测数据的取值范围分为若干个区间,计算落在每个区间的频数或频率.在每个区间上画一个矩形,以估计总体的概率密度.在MATLAB中,绘制直方图命令hist,调用格式①hist(x,n)%作数据x的直方图,其中n表示分组的个数,缺省时n=10②[h,stats]=cdfplot(x)*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析%作数据x的经验分布函数图,stats给出数据的最大值、最小值、中位数、平均值和标准差.附加有正态密度曲线的直方图命令histfit,调用格式①histfit(X)%X为样本数据向量,返回直方图和正态曲线.②histfit(X,nbins)%nbins指定bar的个数,缺省为X中数据个数的平方根.(3)盒图.盒图是由五个数值点组成:最小值,下四分位数,中位数,上四分位数,最大值.中间的盒子是从Q1延伸到Q3,盒子里的直线标示出中位数的位置,盒子两端有直线往外延伸到最小数与最大数.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析在MATLAB中,绘制盒图命令boxplot,调用格式boxplot(X)%产生矩阵X的每一列的盒图和“须”图,“须”是从盒的尾部延伸出来,并表示盒外数据长度的线,如果“须”的外面没有数据,则在“须”的底部有一个点.(4)阶梯图命令stairs,调用格式stairs(x)%作数据x的阶梯图(5)火柴棒图命令stem,调用格式stem(x)%作数据x的火柴棒图例2.1.5随机生成150个服从标准正态分布随机数,将这些数据作为样本数据,分别作出样本数据的柱形图、直方图、阶梯图、火柴棒图等图形。*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析解:x=random('normal',0,1,[1,150]);%产生服从标准正态分布随机数150个bar(x)%作柱形图(图2.2)hist(x,20)%作直方图(图2.3)stairs(x)%作阶梯图(图2.4)stem(x)%作火柴棒图(图2.5)图2.2柱形图图2.3直方图*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析图2.4阶梯图图2.5火柴棒图2.二维与三维数据可视化(1)散点图命令scatter与scatter3,调用格式scatter(x,y)其中x是横坐标,y是纵坐标,输出平面散点图。scatter3(x,y,z)其中x,y,z分别是横、纵、竖坐标向量,输出空间散点图*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(2)曲面图命令mesh与surf,调用格式mesh(X,Y,Z)或surf(X,Y,Z)其中Z是对应(X,Y)处的函数值Z=f(X,Y),[X,Y]是由命令meshgrid生成的数据点矩阵,即[X,Y]=meshgrid(x,y),输入向量x为xoy平面上矩形定义域的矩形分割线在x轴上的坐标,向量y为xoy平面上矩形定义域的矩形分割线在y轴上的坐标.矩阵X为xoy平面上矩形定义域的矩形分割点的横坐标值矩阵,X的每一行是向量x,且X的行数等于y的维数;矩阵Y为xoy平面上矩形定义域的矩形分割点的纵坐标值矩阵,Y的每一列是向量y,且Y的列数等于x的维数.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.1.6对作二维正态分布随机数的散点图解:随机生成服从二维正态分布的数据的命令mvnrnd,调用格式X=mvnrnd(mu,sigma,n)其中mu是均值向量,sigma是协方差矩阵,n是数据个数,输出X是和协方差矩阵同阶的随机数据矩阵.clearmu=[23];%输入均值向量sa=[11.5;1.53];%输入协方差矩阵r=mvnrnd(mu,sa,100);%生成n=100的样本数据scatter(r(:,1),r(:,2),'*');%作样本数据平面散点图*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析%绘制密度曲面figure(2)v=sqrt(3)/2;%输入相关系数x=-1:0.05:5;%横坐标的取值向量y=-2:0.05:8;%纵坐标的取值向量[X,Y]=meshgrid(x,y);%生成网格点T=((X-mu(1)).^2/sa(1,1)-2*v/sqrt(sa(1,1)*sa(2,2))*(X-mu(1)).*(Y-mu(2))+(Y-mu(2)).^2/sa(2,2));%计算密度函数值Z=1/(2*pi)/sqrt(det(sa))*exp(-1/2/(1-3/4)*T);mesh(X,Y,Z)%绘制曲面*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析图1.6样本数据的散点图图1.7样本数据的密度曲面图由图形1.6.可以看出,散点图位于平面上的一个椭圆状区域内,不同的相关系数对应的椭圆状区域形状不同,相关系数越接近与1,椭圆越扁长,可以利用这一图形特征初步说明数据是否来自正态总体.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析设总体服从正态分布N(,2),来自总体的样本为x1,x2,…,xn,其次序统计量,则平面上n个点3.QQ图的散点图称为样本QQ图,其中-1(.)为标准正态分布函数的反函数.可以证明,若样本确是来自正态总体,则散点在直线附近,即QQ图大致呈现一条直线形状。当样本来自其它分布总体时,样本QQ图将是弯曲的.这样,利用QQ图可以直观地作正态性检验,即若QQ图近似一条直线时,则可认为样本数据来自正态总体.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析在MATLAB中,作正态分布QQ图命令normplot,调用格式:normplot(X)其中输入X为向量时,显示正态分布QQ图;当X为矩阵,则显示每一列的正态分布概率图形.作威布尔分布的QQ图命令weibplot,调用格式:weibplot(X)其中,输入X为向量时,显示威布尔(Weibull)分布QQ图;若X为矩阵,则显示每一列的威布尔概率图形.如果数据点基本散布在直线上,则表明数据服从该分布,否则拒绝该分布.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.1.7对于例2.1.6模拟的样本数据r,分别作出两个分量的QQ图,从QQ图检验各分量是否服从正态分布.解:subplot(121),normplot(r(:,1)),%分量x的QQ图subplot(122),normplot(r(:,2)),%分量y的QQ图图1.8两个分量的正态分布qq图*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析上一节中的数据直方图与QQ图等能直观初略描述数据的分布,本节进一步研究如何判定数据是否服从正态分布的问题。若不服从正态分布,那么又可能服从怎样的分布.2.2数据分布及检验2.2.1一元数据分布检验1.经验分布函数设来自总体X的样本为x1,x2,…,xn,对于任意实数x,定义函数(2.2.1)称为经验分布函数.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析1933年,格里汶科(Glivenko)证明了以下的结果:对于任一实数x,当n时Fn(x)以概率1一致收敛于分布函数,即这一结论表明:对于任一实数x,当n充分大时F(x)Fn(x)(2.2.2)因此可用经验分布函数来近似代替F(x),这一点也是由样本推断总体的最基本理论依据之一.在MATLAB中,作经验(累积)分布函数图形命令cdfplot,调用格式:①cdfplot(X)%作样本X的经验分布函数图形*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析②h=cdfplot(X)%h表示曲线的环柄③[h,stats]=cdfplot(X)%stats表示样本最小、大值、均值、中值与标准差例2.2.1生成服从标准正态分布的50个样本点,作出样本的经验分布函数图,并与理论分布函数比较.解:%生成服从标准正态分布的50个样本点X=normrnd(0,1,50,1);[h,stats]=cdfplot(X);%作样本的经验分布函数图holdon%作理论分布函数图plot(-3:0.01:3,normcdf(-3:0.01:3,0,1),'r')*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析输出结果:h=3.0013stats=min:-1.8740%样本最小值max:1.6924%最大值mean:0.0565%平均值median:0.1032%中间值std:0.7559%样本标准差图1.9标准正态分及其50个样本点的经验分布函数图*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析**可编辑*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析2.总体分布的正态性检验进行参数估计和假设检验时,通常总是假定总体服从正态分布,虽然在许多情况下这个假定是合理的,但是当要以此为前提进行重要的参数估计或假设检验,或者人们对它有较大怀疑的时候,就确有必要对这个假设进行检验,进行总体正态性检验的方法有很多种,以下针对MATLAB统计工具箱中提供的程序,简单介绍几种方法.(1)Jarque-Bera检验Jarque-Bera检验简称JB检验,它是利用正态分布的偏度g1和峰度g2,构造一个包含g1,g2且自由度为2的卡方分布统计量JB,即*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(2.2.3)对于显著性水平,当JB统计量小于分布的分位数时接受H0,即认为总体服从正态分布;否则拒绝H0,即认为总体不服从正态分布.这个检验适用于大样本,当样本容量n较小时需慎用.在MATLAB中,JB检验命令jbtest,调用格式[H,P,JBSTAT,CV]=jbtest(X,alpha)其中alpha是检验水平,通常取0.05,0.01,缺省默认为0.05,若h=0,则无法拒绝正态分布;若h=1,则拒绝正态分布.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(2)Kolmogorov-Smirnov检验Kolmogorov-Smirnov检验简称KS检验,它是通过样本的经验分布函数与给定分布函数的比较,推断该样本是否来自给定分布函数的总体.设给定分布函数为G(x),构造统计量(2.2.4)即两个分布函数之差的最大值,对于假设H0:总体服从给定的分布G(x),及给定的,根据Dn的极限分布确定统计量关于是否接受H0的数量界限.因为这个检验需要给定G(x),所以当用于正态性检验时只能做标准正态检验,即H0:总体服从标准正态分布.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析在Matlab中,KS检验命令kstest,调用格式h=kstest(x)h=kstest(x,cdf)[h,p,ksstat,cv]=kstest(x,cdf,alpha)把向量x中的值与标准正态分布进行比较并返回假设检验结果h.如果h=0表示不能拒绝原假设,即不能拒绝服从正太分布.假设的显著水平默认值是0.05.cdf是一个两列矩阵,矩阵的第一列包含可能的x值,第二列式假设累积分布函数G(x)的值,在可能的情况下,cdf的第一列应包含x中的值,如果第一类没有,则用插值的方法近似.指定显著水平alpha,返回p值,K-S检验统计量Ksstat;截断值cv.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(3)Lilliefors检验Lilliefors检验是改进K-S检验并用于一般的正态性检验,原假设H0:总体服从正态分布N(,2),其中,2由样本均值和方差估计.该检验的MATLAB命令lillietest,调用格式[H,P,LSTAT,CV]=lillietest(X,alpha)显著性水平alpha在0.01和0.2之间,缺省时为0.05.输出P为接受假设的概率值,LSTAT为测试统计量的值,CV为是否拒绝原假设的临界值.H为测试结果,若H=0,则无法拒绝X是服从正态分布的;若H=1,则可以否定X服从正态分布.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析2.2.2多维数据的特征值与分布检验1.多维数据的数字特征设总体为p维向量G=(X1,X2,…,Xp),从中抽取样本容量为n的样本,第i个样本观测值为Xi=(xi1,xi2,…,xip)(i=1,2,…,n)记(2.2.5)称X为样本数据矩阵.为了方便起见,将X的第j个列向量记为*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(1)样本均值向量.记Xj的观测值(即X中的第j列)的均值为(2.2.6)称为p元样本均值向量.(2)样本协方差矩阵(2.2.7)称Sjk为样本数据矩阵X的第j列与第k列的协方差.(2.2.8)称S为样本协方差矩阵.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析显然,Xj的方差为Sjj,即(2.2.9)(3)样本相关系数矩阵X的第j列与第k列的相关系数记为又记(2.2.10)称R为样本相关系数矩阵.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析不难验证,样本相关系数矩阵与样本协方差矩阵存在如下关系:(2.2.11)其中,(4)样本标准化矩阵令称(2.2.13)为样本矩阵X的标准化矩阵.(2.2.12)*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(5)R矩阵X的第j列与第k列的R系数定义为(2.2.14)其中称矩阵(xjk)pp为矩阵X的R矩阵,记为R(X),即(2.2.15)由定义(2.2.14)式,显然|rjk|1,可以证明R(x*)=R即X的标准化矩阵的R矩阵等于其相关系数矩阵.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析在MATLAB中,计算样本协方差矩阵命令为cov,调用格式S=cov(X)当X为向量时,S表示X的方差;当X为矩阵时,S为X的协方差矩阵,即S的对角线元素是X每列的方差,S的第i行第j列元素为X的第i列和第j列的协方差值.计算样本相关系数矩阵命令为corrcoef,调用格式R=corrcoef(X)其中X为样本矩阵,输出R的对角线元是1,R的第i行第j列元为X的第i列和第j列的相关系数.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析计算X的标准化矩阵命令为zscore,调用格式Z=zscore(X)其中X为样本矩阵,输出Z是标准化矩阵。MATLAB中没有计算R矩阵的命令,因此根据R矩阵的定义,可编写计算R矩阵的程序如下:X=[data];%输入样本数据矩阵Xfori=1:size(X,2)forj=1:size(X,2)RX(i,j)=2*dot(X(:,i),X(:,j))./[sum(X(:,i).^2)+sum(X(:,j).^2)];endendRX%输出R(X)*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析2.多维正态分布的概念与性质设p元总体的密度函数为:(2.2.15)则称X服从p维正态分布,记为X~N(,),其中称为总体均值向量,称为总体协方差矩阵.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析多维正态分布具有如下性质:(1)多维正态分布的边缘分布服从正态分布,但反之不真;(2)正态随机向量的线性函数仍然服从正态分布.若X~Np(,),A为s×p阶常数矩阵,d为s维常数向量,则即多维正态分布在线性变换下仍然服从多维正态分布.(3)正态分布的随机向量间相互独立与不相关等价.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析对于来自总体且由(2.1.19)式表示的样本数据矩阵X,怎样检验其是否是来自于多维正态总体呢?一般可按照以下QQ图检验方法,具体的过程如下:(3)对上述马氏平方距离从小到大排序*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(5)以马氏平方距离为横坐标,2分位数为纵坐标做n个点的平面散点图,即得到分布的Q-Q图.(6)若点散布在过原点,斜率为1的直线上.接受数据来自p元正态分布总体的假设;否则拒绝正态分布假设.以上QQ图检验方法的matlab程序实现如下。X=[data];[N,p]=size(X);%X的行数及列数d=mahal(X,X);%计算马氏距离d1=sort(d);%从小到大排序pt=[[1:N]-0.5]/N;%计算分位数x2=chi2inv(pt,p);%计算2plot(d1,x2','*',[0:m],[0:m],'-r')%作图,m是正整数*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.2.2为了研究某种疾病,对一批人同时检测4项指标脂蛋白(X1),甘油三酯(X2),脂蛋白(X3),前脂蛋白(X4).该数据是否服从四维正态分布?表2.6.doc解:首先将表2.6中数据粘帖到MATLAB软件的编辑窗口,用A表示B=[A(:,1:4);A(:,5:8);A(:,9:12)];d=mahal(B,B);%计算马氏距离d1=sort(d);%从小到大排序pt=[[1:60]-0.5]/60;%计算分位数x2=chi2inv(pt,4);%计算卡方plot(d1,x2','*',[0:12],[0:12],'-r')%作图*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析图2.14四项检测指标数据的正态检验图从图2.14可以看出,数据点基本落在直线上,故无法拒绝该数据服从四维正态分布.3.多维数据的多个总体协方差矩阵的相等性检验*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(1)两个总体协方差矩阵相等的检验设从两个总体分别抽取样本容量为n1,n2的两个样本,样本的协方差矩阵分别为s1,s2,那么在两总体协方差矩阵相等时,其总体的协方差矩阵的估计为:若检验两个总体的协方差矩阵相等,则假设检验:检验统计量:其中|.|表示行列式,p是向量的维数,tr表示矩阵的迹.对给定的,查卡方分布表得到临界值,若Qi<则接受H0,否则拒绝H0.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析设有k个p元总体,抽取样本容量为ni的k个样本,其样本的协方差矩阵为Si(i=1,…,k),检验假设如下至少有一对不相等在H0成立时,统计量其中f=p(p+1)(k-1)/2为自由度.对给定的,计算概率p,若p<则拒绝H0.(2)多个总体协方差矩阵相等的检验*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.3.1检验表2.6三总体协方差矩阵是否相等(=0.1)解:首先输入数据A=[data];G1=A(:,1:4);G2=A(:,5:8);G3=A(:,9:12);n=60;k=3;p=4;f=p*(p+1)*(k-1)/2;d=(2*p^2+3*p-1)*(k+1)/(6*(p+1)*(n-k));s1=cov(G1);s2=cov(G2);s3=cov(G3);s=19*(s1+s2+s3)/57;M=(n-k)*log(det(s))-19*(log(det(s1))+log(det(s2))+log(det(s3)));T=(1-d)*M%统计量p=1-chi2cdf(T,f)%卡方分布概率由于p=0.4374>0.1,故知三个总体协方差矩阵相等.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析2.3数据变换2.3.1数据属性变换在解决经济问题综合评价时,评价指标通常分为效益型、成本型、适度型等类型,效益型指标值越大越好、成本型指标值越小越好、适度型指标值既不能太大也不能太小为好.一般说来,对问题进行综合评价,必须统一评价指标的属性,进行指标的无量纲化处理.常见的处理方法有极差变换、线性比例变换、样本标准化变换等方法.我们用I1,I2,I3分别表示效益型、成本型、适度型指标,对于原始指标矩阵可以建立以下矩阵*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(1)极差效益型矩阵,其变换公式为(2.3.1)其中j为第j项指标的适度数值.其中行为样品列是指标指标经过变换后,均有0bij1,且各指标下最好结果的属性值=1,最坏结果的属性值=0.指标变换前后的属性值成比例.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(2)极差成本型矩阵,其变换公式为(2.3.2)其中j为第j项指标的适度数值.指标经过变换后,均有0bij1,且各指标下最差结果的属性值=1,最好结果的属性值=0.指标变换前后的属性值成比例.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(3)优属度效益型矩阵,其变换公式为(2.3.3)其中j为第j项指标的适度数值.(4)比值成本型矩阵,其变换公式为(2.3.4)其中j为第j项指标的适度数值.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析2.压缩变换模糊化利用MATLAB软件中的模糊数学工具箱,可以直接调用以下函数实现数据转换:表2.7模糊工具箱隶属度函数 函数名称 函数表达式 命令格式 数据类型 高斯型函数 y=exp{-(x-)2/22} y=gaussmf(x,[sig,c]) 适度型 钟型函数 y=1/[1+|(x-c)/a|2b] y=gbellmf(x,[a,b,c]) S型函数 y=smf(x,[a,b]) 效益型 Z型函数 y=zmf(x,[a,b]) 成本型 sigmoid函数 y=sigmf(x,[a,c]) a>0效益a<0成本*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析2.3.2Boxcox变换当数据在左边或右边有长尾巴,或很不对称时,有时需要对数据进行变换以符合非参数(或参数)统计推断方法的某些条件.其中最常用的一种方法就是box-cox变换(2.3.5)在MATLAB中,上述变换的命令如下:[t,l]=boxcox(x)其中x是原始数据,t是变换以后的数据,l是变换公式中参数的数值.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析例2.3.1淮河流域包括河南、安徽、江苏、山东4省份,1952-1991年因水灾造成的流域成灾面积数据如表2.8所示,应用boxcox变换考察数据的正态分布特性。表2.8淮河流域成灾面积(单位:106hm2) 年份 1952 1953 1954 1955 1956 1957 1958 1959 成灾面积 1.4963 1.3411 4.082 1.2787 4.1549 3.6359 0.9416 0.2083 年份 1960 1961 1962 1963 1964 1965 1966 1967 成灾面积 1.4567 0.8569 2.7197 6.7494 3.6884 2.5395 0.2596 0.2747 年份 1968 1969 1970 1971 1972 1973 1974 1975 成灾面积 0.5398 0.5804 0.7038 0.9679 1.0219 0.5106 1.3253 1.8438 年份 1976 1977 1978 1979 1980 1981 1982 1983 成灾面积 0.4933 0.3437 0.2856 2.5296 1.6594 0.1615 3.208 1.4698 年份 1984 1985 1986 1987 1988 1989 1990 1991 成灾面积 2.938 1.9233 0.7498 0.7933 0.1276 1.4853 1.386 4.6226*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析a=[data];%输入原始数据[b,t]=boxcox(a(:,1));%对第一列数据boxcox变换normplot(a(:,1))%原始数据qq图normplot(b(:,1))%变换数据qq图图2.15淮河流域成灾面积(原始数据)qq图解:将淮河流域1951-1991年的成灾面积数据作为矩阵a输入,程序如下:*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析图2.16变换数据qq图可以看出原始数据(图2.15)没有分布在直线上,而变换后的数据(图2.16)基本上落在直线上.图2.15原始数据qq图下面给出变换前后数据的经验分布函数图及相应的统计量*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析plot(sort(a(:,1)),normcdf(sa,'-r')%原始经验分布与正态分布函数cdfplot(b(:,1));%变换数据经验分布holdon;plot(sort(a(:,1)),normcdf(sb,'-r')%变换数据经验分布与正态分布作出图形如图2.17,2.18所示,原始数据与正态分布分布函数相差甚远,变换后的数据比较接近.图2.17原始数据经验分布图,图2.18变换数据经验分布图*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析2.3.3基于数据变换的综合评价模型例2.3.2为了全面了解10家上市公司的绩效,用x1表示每股净收益;x2-净资产收益率;x3-主营业务收益率;x4-主营业务增长率;x5-净资产增长率;x6-总资产增长率.数据如表2.9所示,试对上市公司进行综合评价.表2.910家上市公司的统计数据 公司编号 x1 x2 x3 x4 x5 x6 1 0.021 26.806 57.311 -39.815 -39.815 8.819 2 -0.142 -7.179 16.335 -11.359 -4.766 -4.626 3 -0.737 -62.417 7.359 -18.378 -19.165 12.289 4 0.32 7.276 17.372 39.506 19.858 41.939 5 0.16 4.82 38.323 37.113 23.744 34.063 6 0.351 11.842 23.118 14.725 11.616 9.516 7 0.243 5.173 17.515 14.435 123.101 79.489 8 -0.19 -10.912 8.236 -2.746 -7.439 -10.502 9 0.173 7.543 23.978 17.122 21.318 25.701 10 0.367 9.352 16.048 55.621 27.861 18.918*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析解:设原始数据矩阵为(1)利用变异系数法建立权向量w=(0.1350,0.6988,0.0149,0.0617,0.0625,0.0270)*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(2)建立理想 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 其中(3)建立相对偏差模糊矩阵其中利用MATLAB软件得到*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析(4)建立综合评价模型评价准则为:若Di<Dj,则第i家上市公司的业绩优于第j家上市公司的业绩.*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析经计算可得各公司排名如下表2.10所示:表2.1010家上市公司的综合排名说明:如果采取不同的方法建立权向量,或者不同的方法得到相对优属度矩阵,评价的结果会有所不同.MATLAB程序如下: 编号 1 2 3 4 5 6 7 8 9 10 Dj 0.1878 0.4583 0.9714 0.2320 0.2669 0.2196 0.2231 0.4931 0.2647 0.2038 排名 1 8 10 5 7 3 4 9 6 2*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析clear%输入原始数据X=[0.02126.80657.311-39.815-39.8158.819-0.142-7.17916.335-11.359-4.766-4.626-0.737-62.4177.359-18.378-19.16512.2890.327.27617.37239.50619.85841.9390.164.8238.32337.11323.74434.0630.35111.84223.11814.72511.6169.5160.2435.17317.51514.435123.10179.489-0.19-10.9128.236-2.746-7.439-10.5020.1737.54323.97817.12221.31825.7010.3679.35216.04855.62127.86118.918];*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析m=mean(X);%计算各指标均值s=std(X);%计算各指标标准差v=s./abs(m);%计算各指标变异系数w=v/sum(v);%计算各指标权重%相对偏差矩阵R=abs(X-ones(10,1)*max(X))./[ones(10,1)*range(X)];D=R*w';%计算综合评价值[F1,t1]=sort(D);%综合评价值排序[F2,t2]=sort(t1)%t2输出上市公司排名*/24MATLAB数据分析方法(机械工业出版社)第2章数据描述性分析谢谢!THANKYOU!
本文档为【数据分析方法MATLAB实现课件】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
金水文库
鑫淼网络科技有限公司主要经营:PPT设计 、课件制作,软文策划、合同简历设计、计划书策划案、各类模板等。公司秉着用户至上的原则服务好每一位客户
格式:ppt
大小:2MB
软件:PowerPoint
页数:0
分类:小学语文
上传时间:2020-05-08
浏览量:28