首页 SPSS 统计软件教程—数据分布特征的测度

SPSS 统计软件教程—数据分布特征的测度

举报
开通vip

SPSS 统计软件教程—数据分布特征的测度*第四章数据分布特征的测度统计学*第四章数据分布特征的测度第一节集中趋势的测度第二节离散程度的测度第三节偏态与峰度的测度*学习目标1.集中趋势各测度值的计算方法2.集中趋势不同测度值的特点和应用场合3.离散程度各测度值的计算方法4.离散程度不同测度值的特点和应用场合偏态与峰度测度方法*数据分布的特征集中趋势(位置)离中趋势(分散程度)偏态和峰度(形状)*数据分布的特征和测度数据的特征和测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰度四分位差异众比率偏态*第一节集中趋势的测度一.定类数据:众数二....

SPSS 统计软件教程—数据分布特征的测度
*第四章数据分布特征的测度统计学*第四章数据分布特征的测度第一节集中趋势的测度第二节离散程度的测度第三节偏态与峰度的测度*学习目标1.集中趋势各测度值的计算方法2.集中趋势不同测度值的特点和应用场合3.离散程度各测度值的计算方法4.离散程度不同测度值的特点和应用场合偏态与峰度测度方法*数据分布的特征集中趋势(位置)离中趋势(分散程度)偏态和峰度(形状)*数据分布的特征和测度数据的特征和测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差峰度四分位差异众比率偏态*第一节集中趋势的测度一.定类数据:众数二.定序数据:中位数和分位数三.定距和定比数据:均值四.众数、中位数和均值的比较*数据特征分布的和测度(本节位置)数据的特征和测度分布的形状集中趋势离散程度众数中位数均值离散系数方差和标准差峰度四分位差异众比率偏态*集中趋势(Centraltendency)一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 值或中心值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定*定类数据:众数*众数(概念要点)集中趋势的测度值之一出现次数最多的变量值不受极端值的影响可能没有众数或有几个众数主要用于定类数据,也可用于定序数据和数值型数据*众数(众数的不唯一性)无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:252828364242*定类数据的众数(算例)表3-1某城市居民关注广告类型的频数分布广告类型人数(人)比例频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100【例】根据下表计算众数解:这里的变量为“广告类型”,这是个定类变量,不同类型的广告就是变量值。我们看到,在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即Mo=商品广告*定序数据的众数(算例)【例】根据下表,计算众数解:这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即Mo=不满意表3-2甲城市家庭对住房状况 评价 LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载 的频数分布回答类别甲城市户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510合计300100.0*数值型分组数据的众数(要点及计算公式)1.众数的值与相邻两组频数的分布有关4.该公式假定众数组的频数在众数组内均匀分布2.相邻两组的频数相等时,众数组的组中值即为众数Mo3.相邻两组的频数不相等时,众数采用下列近似公式计算MoMo*数值型分组数据的众数(算例)表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例4.1】根据右表计算50名工人日加工零件数的众数*定序数据:中位数和分位数*中位数(概念要点)集中趋势的测度值之一排序后处于中间位置上的值Me50%50%不受极端值的影响主要用于定序数据,也可用数值型数据,但不能用于定类数据各变量值与中位数的离差绝对值之和最小,即*中位数(位置的确定)未分组数据:组距分组数据:*未分组数据的中位数(计算公式)*定序数据的中位数(算例)【例4.2】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的中位数解:中位数的位置为:300/2=150从累计频数看,中位数的在“一般”这一组别中。因此Me=一般表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—*数值型未分组数据的中位数(5个数据的算例)原始数据:2422212620排序:2021222426位置:12345中位数22*数值型未分组数据的中位数(6个数据的算例)原始数据:10591268排序:56891012位置:123456位置N+126+123.5中位数8+928.5*根据位置公式确定中位数所在的组采用下列近似公式计算:3.该公式假定中位数组的频数在该组内均匀分布数值型分组数据的中位数(要点及计算公式)*数值型分组数据的中位数(算例)表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例4.3】根据第三章表3-5中的数据,计算50名工人日加工零件数的中位数*四分位数(概念要点)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于定序数据,也可用于数值型数据,但不能用于定类数据QLQMQU25%25%25%25%*四分位数(位置的确定)未分组数据:组距分组数据:下四分位数(QL)位置=N+14上四分位数(QU)位置=3(N+1)4下四分位数(QL)位置=N4上四分位数(QL)位置=3N4*定序数据的四分位数(算例)【例4.4】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的四分位数解:下四分位数(QL)的位置为:QL位置=(300)/4=75上四分位数(QL)的位置为:QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此QL=不满意QU=一般表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—*数值型未分组数据的四分位数(7个数据的算例)原始数据:23213032282526排序:21232526283032位置:1234567N+1QL=237+1QL位置=4=4=2QU位置=3(N+1)43(7+1)4==6QU=30*数值型未分组数据的四分位数(6个数据的算例)原始数据:232130282526排序:212325262830位置:123456QL=21+0.75(23-21)=22.5QL位置=N+14=6+14=1.75QU位置=3(N+1)43(6+1)4==5.25QU=28+0.25(30-28)=28.5*数值型分组数据的四分位数(计算公式)上四分位数:下四分位数:*数值型分组数据的四分位数(计算示例)QL位置=50/4=12.5QU位置=3×50/4=37.5表3-5某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105~110110~115115~120120~125125~130130~135135~140358141064381630404650合计50—【例4.6】根据第三章表3-5中的数据,计算50名工人日加工零件数的四分位数*定距和定比数据:均值*均值(概念要点)1.集中趋势的测度值之一2.最常用的测度值3.一组数据的均衡点所在4.易受极端值的影响5.用于数值型数据,不能用于定类数据和定序数据*均值(计算公式)设一组数据为:X1,X2,…,XN简单均值的计算公式为设分组后的数据为:X1,X2,…,XK相应的频数为:F1,F2,…,FK加权均值的计算公式为*简单均值(算例)原始数据:10591368*加权均值(算例)表4-1某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计—506160.0【例4.7】根据第三章表3-5中的数据,计算50名工人日加工零件数的均值*加权均值(权数对均值的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(X):020100人数分布(F):118乙组:考试成绩(X):020100人数分布(F):811X甲0×1+20×1+100×8n10i=1Xi82(分)X乙0×8+20×1+100×1n10i=1Xi12(分)*均值(数学性质)1.各变量值与均值的离差之和等于零2.各变量值与均值的离差平方和最小*调和平均数(概念要点)1.集中趋势的测度值之一2.均值的另一种表现形式3.易受极端值的影响4.用于定比数据5.不能用于定类数据和定序数据6.计算公式为原来只是计算时使用了不同的数据!*调和平均数(算例)表4-3某日三种蔬菜的批发成交数据蔬菜名称批发价格(元)Xi成交额(元)XiFi成交量(公斤)Fi甲乙丙1.200.500.801800012500640015000250008000合计—3690048000【例4.8】某蔬菜批发市场三种蔬菜的日成交数据如表4-2,计算三种蔬菜该日的平均批发价格*几何平均数(概念要点)1.集中趋势的测度值之一2.N个变量值乘积的N次方根3.适用于特殊的数据4.主要用于计算平均发展速度5.计算公式为6.可看作是均值的一种变形*几何平均数(算例)【例4.10】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率=103.84%-1=3.84%*众数、中位数和均值的比较*众数、中位数和均值的关系对称分布均值=中位数=众数左偏分布均值中位数众数右偏分布众数中位数均值*数据类型与集中趋势测度值表4-4数据类型和所适用的集中趋势测度值数据类型定类数据定序数据定距数据定比数据适用的测度值※众数※中位数※均值※均值—四分位数众数调和平均数—众数中位数几何平均数——四分位数中位数———四分位数———众数*第二节离散程度的测度一.定类数据:异众比率二.定序数据:四分位差三.定距和定比数据:方差及标准差四.相对离散程度:离散系数*离中趋势数据分布的另一个重要特征离中趋势的各测度值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值*数据的特征和测度(本节位置)数据的特征和测度分布的形状离散程度集中趋势众数中位数均值离散系数方差和标准差峰度四分位差异众比率偏态*定类数据:异众比率*异众比率(概念要点)1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.计算公式为4.用于衡量众数的代表性*异众比率(算例)表3-1某城市居民关注广告类型的频数分布广告类型人数(人)频率(%)商品广告服务广告金融广告房地产广告招生招聘广告其他广告1125191610256.025.54.58.05.01.0合计200100【例4.11】根据第三章表3-1中的数据,计算异众比率解:在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好Vr=200-112200=1-112200=0.44=44%*定序数据:四分位差*四分位差(概念要点)1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差QD=QU-QL4.反映了中间50%数据的离散程度不受极端值的影响用于衡量中位数的代表性*四分位差(定序数据的算例)【例4.12】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的四分位差解:设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5已知QL=不满意=2,QU=一般=3四分位差:QD=QU=QL=3–2=1表3-2甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数非常不满意不满意一般满意非常满意2410893453024132225270300合计300—*定距和定比数据:方差和标准差*极差(概念要点及计算公式)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7891078910未分组数据R=max(Xi)-min(Xi).=组距分组数据R最高组上限-最低组下限5.计算公式为*平均差(概念要点及计算公式)1.离散程度的测度值之一2.各变量值与其均值离差绝对值的平均数3.能全面反映一组数据的离散程度4.数学性质较差,实际中应用较少5.计算公式为未分组数据组距分组数据*平均差(计算过程及结果)表4-5某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)|Xi-X||Xi-X|Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计—50—312【例4.13】根据第三章表3-5中的数据,计算工人日加工零件数的平均差*方差和标准差(概念要点)1.离散程度的测度值之一2.最常用的测度值3.反映了数据的分布反映了各变量值与均值的平均差异根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4681012X=8.3*总体方差和标准差(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式*总体标准差(计算过程及结果)表4-6某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)(Xi-X)2(Xi-X)2Fi105~110110~115115~120120~125125~130130~135135~140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计—50—3100.5【例4.14】根据第三章表3-5中的数据,计算工人日加工零件数的标准差*样本方差和标准差(计算公式)未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式注意:样本方差用自由度n-1去除!*样本方差自由度(degreeoffreedom)一组数据中可以自由取值的数据的个数当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量*样本方差(算例)原始数据:10591368*样本标准差(算例)样本标准差原始数据:10591368*方差(简化计算公式)样本方差总体方差*方差(数学性质)各变量值对均值的方差小于对任意值的方差设X0为不等于X的任意数,D2为对X0的方差,则*标准化值(概念要点和计算公式)1.也称标准分数2.给出某一个值在一组数据中的相对位置3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5.计算公式为*相对离散程度:离散系数*离散系数(概念要点和计算公式)1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5.计算公式为*离散系数(实例和计算过程)表4-7某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例4.16】某管理局抽查了所属的8家企业,其产品销售数据如表4.7。试比较产品销售额与销售利润的离散程度*离散系数(计算结果)X1=536.25(万元)S1=309.19(万元)V1=536.25309.19=0.577S2=23.09(万元)V2=32.521523.09=0.710X2=32.5215(万元)结论:计算结果表明,V10为右偏分布4.偏态系数<0为左偏分布5.计算公式为*偏态(实例)【例4.17】已知1997年我国农村居民家庭按纯收入分组的有关数据如表4.9。试计算偏态系数表4-101997年农村居民家庭纯收入数据按纯收入分组(元)户数比重(%)500以下500~10001000~15001500~20002000~25002500~30003000~35003500~40004000~45004500~50005000以上2.2812.4520.3519.5214.9310.356.564.132.681.814.94*户数比重(%)252015105农村居民家庭村收入数据的直方图偏态与峰度(从直方图上观察)按纯收入分组(元)1000500←15002000250030003500400045005000→结论:1.为右偏分布2.峰度适中*偏态系数(计算过程)表4-10农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组(百元)组中值Xi户数比重(%)Fi(Xi-X)Fi3(Xi-X)Fi45以下5—1010—1515—2020—2525—3030—3535—4040—4545—5050以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9310.356.564.132.681.814.94-154.64-336.46-144.87-11.840.1823.1689.02171.43250.72320.741481.812927.154686.511293.5346.520.20140.60985.492755.005282.948361.9846041.33合计—1001689.2572521.25*偏态系数(计算结果)根据上表数据计算得将计算结果代入公式得结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大*峰度*峰度(概念要点)1.数据分布扁平程度的测度2.峰度系数=3扁平程度适中3.偏态系数<3为扁平分布4.偏态系数>3为尖峰分布5.计算公式为*峰度系数系数(实例计算结果)代入公式得【例4.18】根据表4-10中的计算结果,计算农村居民家庭纯收入分布的峰度系数结论:由于=3.4>3,说明我国农村居民家庭纯收入的分布为尖峰分布,说明低收入家庭占有较大的比重*由Excel输出的描述统计量*本章小节1.集中趋势各测度值的含义、计算方法、特点和应用场合2.离散程度各测度值的含义、计算方法、特点和应用场合偏态及峰度的测度方法用Excel计算描述统计量
本文档为【SPSS 统计软件教程—数据分布特征的测度】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
都绘匠人
国家注册城乡规划师,资深工程师,具备城乡规划领域多年从业经历
格式:ppt
大小:2MB
软件:PowerPoint
页数:87
分类:理学
上传时间:2022-04-20
浏览量:0