首页 数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章 数据的描述性分析

数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章 数据的描述性分析

举报
开通vip

数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章 数据的描述性分析第1章数据的描述性分析1.1数据的数字特征数据分析研究的对象是数据,一元数据是个观测值要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等.1.1.1均值、方差等数字特征1.均值2.方差标准差变异系数 阶原点矩阶中心矩偏度偏度是刻画数据对称性的指标,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,关于均值对称的数据偏度为0.峰度当总体分布为正态时,峰度近似为0;当分布较正态分布的尾部更分散,峰度为正,否则峰度为负.当数据是某些总体随机取出的样...

数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章  数据的描述性分析
第1章数据的描述性分析1.1数据的数字特征数据分析研究的对象是数据,一元数据是个观测值要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等.1.1.1均值、方差等数字特征1.均值2.方差标准差变异系数 阶原点矩阶中心矩偏度偏度是刻画数据对称性的指标,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,关于均值对称的数据偏度为0.峰度当总体分布为正态时,峰度近似为0;当分布较正态分布的尾部更分散,峰度为正,否则峰度为负.当数据是某些总体随机取出的 样本 保单样本pdf木马病毒样本下载上虞风机样本下载直线导轨样本下载电脑病毒样本下载 时,数据数字特征即是样本的数字特征.与样本数字特征对应的是总体的数字特征.样本数字特征是相应的总体数字特征的矩估计.例1.2某单位对100名女学生测定血清总蛋白含量(g/L),数据如下:74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.070.472.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.767.276.572.770.477.268.867.567.567.372.775.873.575.073.573.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4计算均值、方差、标准差、变异系数、偏度、峰度解用SAS系统PROCUNIVARRIATE过程计算,得偏度、峰度的绝对值皆较小,可以认为数据是来自正态总体的样本.1.1.2中位数、分位数、三均值与极差这些数字特征适合总体分布未知或有偏态的数据.设是个观测值,将它们按由小到大排为:称为次序统计量.最小次序统计量与最大次序统计量分别为 中位数与极差中位数中位数位于数据中心位置,中位数具有稳健性,受异常值影响较小.极差2.分位数对,分位数其中是的整数部分,当定义.分位数又称第100百分数.大体上有100%的观测值不超过分位数.即中位数.上四分位数下四分位数下列分位数经常用到:四分位极差四分位标准差总体标准差的稳健估计三均值描述数据集中位置的稳健估计下截断点小于下截断点的数据为特小值上截断点大于上截断点的数据为特大值特小值、特大值合称异常值.用PROCUNIVARIATE过程计算分位数、四分位极差;用PROCIML过程计算三均值、四分位标准差,下、上截断点.例1.8(续例1.2)用PROCUNIVARIATE过程,PROCIML过程计算得到:下、上截断点分别为64.3和82.7,故数据84.3是异常值(特大值).将异常值84.3剔除,在进行计算分析,得可见,更为接近,与与原数值相等,说明有稳健性,而原数据的值为3.940,现为3.810说明对异常值无稳健性.1.2数据的分布对数据的总体情况作全面描述要研究数据的分布。1.2.1直方图、经验分布函数与QQ图1.直方图数据取值范围分成若干区间,区间长度称为组距,每个区间上画一矩形,宽度是组距,高度是频率/组距,每一矩形的面积是数据落入区间的频率.SAS系统根据样本容量和样本取值范围自动确定合适的分组方式.PROCCAPABILITY过程可以做出直方图.直方图可以对总体概率密度的估计,这就是拟合分布曲线.SAS系统用PROCCAPABILITY过程做直方图与拟合参数分布密度曲线.SAS系统中分布类型:1)正态分布;2)对数正态分布;3)指数分布;4)分布(Gamma分布);5)Weibull分布;6)Bata分布.2.经验分布函数设来自总体分布的样本是,其次序统计量是.经验分布函数是是非降阶梯函数,处跃度是(若重复取值次,则跃度为).是充分大时,.3.QQ图设总体分布为正态分布,标准正态分布函数,其反函数.QQ图是由以下的点构成的散点图:若样本数据近似于正态分布,在QQ图上这些点近似地在直线附近.例1.10(续例1.2)利用例1.2的数据(1)作直方图,并拟合正态分布曲线;(2)做经验分布函数图,并拟合正态分布函数曲线;(3)作正态QQ图,并在直观上鉴别样本数据来自正态总体.解利用PROCCAPABILITY过程可解决上述问题.直方图经验分布函数图QQ图1.2.2茎叶图、箱线图及五数总括茎叶图例1.11某班有31个学生,某门课程考试成绩如下:254550545561646872757578798183848484858686868789898990919192100作出茎叶图.解第一个数25十位数为2,个位数为5.以个位数为单位,将25用“|”分开:25→2|5.这样,得茎叶图.频数2|513|4|515|04536|14837|2558958|1344456667999139|0112410|01特点:1)直观看出数据分布情况,绝大部分数据在70~95之间,在80~89之间形成一个高峰,数据没有30余分,数据有间隙.2)自然显出数据排序.可看出原数据次序统计量.例1.12铅压铸件硬度数据如下:53.070.284.355.378.563.571.453.482.567.369.573.055.785.895.451.174.454.177.852.469.153.564.382.755.770.587.550.772.359.5作出茎叶图.解利用PROCUNIVARIATE过程,可作茎叶图.为简化,将小数点后数据四舍五入,以十位数为茎,个位数为叶,并把每茎分裂成两行:一行的叶取0,1,2,3,4,另一行取5,6,7,8,9.计算结果数据从大到小排列.频数9|519|8|6828|23437|8827|000123476|7926|04435|56635|112334472.箱线图画一个矩形,两个端边分别是,中间两道线,处于位置.两端向外各画一道直线,分别到上截断点,下截断点.异常值用“×”号 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示.例1.15作例1.11的箱线图.解下、上截断点:36.5,120.5.异常值25.3.五数总括1.2.3正态性检验与分布拟合检验检验的值方法设检验问题的显著水平为.检验统计量为.当假设成立时,有样本算得的检验统计量的值为.设(双侧检验),则当,拒绝;当,接受. 检验法——样本容量——分组数——落入第i组频数,——落入第组理论频数——待估参数数充分大假设检验问题不是其中为指定的总体分布值方法:则对给定的显著水平,当,拒绝,当,接受2.Kolmogorov-Smirnov检验法假设检验问题仍如上,—经验分布函数设由样本算得的值为,又则对给定显著水平,当,拒绝,当,接受.用PROCCAPABILITY过程可进行检验与Kolmogorov-Smirnov检验.3.正态性W检验方法设样本观测值为,其次续统计量为当n偶,当n奇,(系数):总体为正态分布总体非正态分布总有,成立时,W值接近于1.当;拒绝;当,接受.用PROCUNIVARIATE过程可得W值与p值,从而完成正态性W检验.例1.19(续例1.2)对例1.2数据,作(1)正态性W检验;(2)关于正态分布假设的检验;(3)关于正态分布假设的Kolmogorov-Smirnov检验解(1)由PROCUNIVARIATE过程,算得W=0.9827p=p{W≤0.9827}=0.6709取,因p=0.5382>,接受正态性假设.(2)由PROCUNIVARIATE过程,算得=4.0784p=P{≥0.4784}=0.5382取,因p=0.5328>,接受正态性假设.(3)由PROCUNIVARIATE过程,算得D=0.0655,p={D≥0.0655}=0.15取,因p=0.15>,接受正态性假设1.3多元数据的数字特征与相关分析1.3.1二元数据的数字特征及相关系数——二元总体,观测数据观测矩阵——均值向量的协方差的协方差的协方差——协方差矩阵相关系数①,正相关②,负相关③,完全线性相关④,不相关二元总体分布函数协方差总体相关系数当大,假设检验成立时,~值,设显著水平当,拒绝;接受上述定义的相关系数成为Pearson相关系数设,则其次序统计量,若,则称是在样本中的秩,记为.秩统计量.例-0.8-3.11.1-5.24.2次序统计量-5.2-3.1-0.81.14.2秩统计量32415例-0.8-3.10.8秩统计量213或312对相同观测值取值为秩平均值:2.512.5样本,秩统计量秩统计量Spearman相关系数定义为两组秩统计量的相关系数,记为,可证例1.21某种矿石成分A,B,A的含量百分数x(%),B的含量百分数y(%):(1)计算Pearson相关系数,作假设检验(2)计算Spearman相关系数,作上述检验解由PROCCORR过程,得(1),值为,取拒绝,认为有实际意义(2)取拒绝,认为有实际意义1.3.2多元数据数字特征及相关矩阵是元总体,样本数据第i个观测数据,称样品观测矩阵第i行构成的量有1)第行的均值2)第行的方差的Spearman相关系数,Spearman相关矩阵Spearman相关矩阵具有稳健性数据观测矩阵数据的标准化处理样品,变量观测数据的协方差阵即的相关阵.(3)的协方差均值向量协方差矩阵(4)的相关系数相关矩阵非负定矩阵刻画变量之间线性联系的密切程度.1.3.3总体的数字特征及相关矩阵元总体.总体分布函数总体概率密度总体均值向量总体的协方差矩阵设的相关系数为总体的相关矩阵设1)特别2)特别分别是的相合估计,当充分大时,简单随机样本①与总体有相同分布;②是相互独立的元随机向量.的无偏估计分别是:证记对于随机向量,总有故,可证(自证)故得从而是的相合估计:元正态分布其中性质: 元常向量则2)划分作相应划分则3)相互独立的最大似然估计设是来自正态总体的简单随机样本,其联合概率密度.称似然函数,它是的函数,若满足,则称的最大似然估计定理:各为的最大似然估计(证略).注:的最大似然估计为.大时,因是的无偏估计,仍以作为的估计.例1.23对某少数民族的21位同袍测量血液中四种成份,的含量,结果如下:求的无偏估计.解由PROCCORR过程,计算得到 x1 x2 x3 x4 1 18.8 28.1 5.1 35.1 2 17.4 25.6 4.9 33.9 3 16 27.4 5 32.2 4 19.3 29.5 1.7 29.1 5 17.4 27.4 4.5 35.6 6 15.3 25.3 3.6 32.3 7 16.7 25.8 4.4 33 8 17.4 26.7 4.4 33 9 16.2 25.7 2.3 33.9 10 16.7 26.7 6.4 35 11 18.2 28 3.2 29.7 12 16.7 26.7 2.1 34.9 13 18.1 26.7 4.3 31.5 14 16.7 26 3 32.7 15 18.1 30.2 7 34.9 16 20.2 30.5 4.8 34.4 17 20.2 29.5 5.5 36.2 18 21.5 31.5 5.8 36.5 19 18.8 30.6 5.4 35.4 20 21.6 27.8 4.8 34.1 21 21.3 29.5 5.8 35.8例1.24(续例1.23)对例1.23数据,计算中位数向量相关矩阵及Spearman相关矩阵并进行分析.解由PROCCORR过程,算得及对应p值如下:若取,其值,认为与,与,与相关,其相关系数无明显统计意义. 1.000000.00.766060.00010.349880.12000.336490.1358 0.766060.00011.000000.00.431650.05070.340330.1312 0.349880.12000.431650.05071.000000.00.614960.0030 0.336490.13580.340330.13120.614960.00301.000000.0Spearman相关矩阵及对应值 取,的元素对应值皆小于,故认为具有统计意义. 1.000000.00.789700.00010.378440.09070.430540.0514 0.789700.00011.000000.00.508500.01860.488410.0247 0.378440.09070.508500.01861.000000.00.691830.0005 0.430540.05140.488410.02470.691830.00051.000000.0
本文档为【数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章 数据的描述性分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥12.0 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
在线教务服务
暂无简介~
格式:ppt
大小:711KB
软件:PowerPoint
页数:0
分类:工学
上传时间:2019-08-19
浏览量:26