首页 统计学第4章

统计学第4章

举报
开通vip

统计学第4章第4章数据的概括性度量4.1集中趋势的度量4.2离散程度的度量4.3偏态与峰态的度量数据的概括性度量4.1集中趋势的度量  集中趋势(centraltendency)是指一组数据向某一中心值靠拢的倾向和程度,集中趋势可以反映一组数据的中心值或代表值,不同数据类型可选用不同的集中趋势测度值.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据.4.1.1分类数据:众数一组数据中出现次数最多的变量值称为众数(mode),用M0表示.不受极端值的影响.众数主要用于测度分类数据的集中趋势...

统计学第4章
第4章数据的概括性度量4.1集中趋势的度量4.2离散程度的度量4.3偏态与峰态的度量数据的概括性度量4.1集中趋势的度量  集中趋势(centraltendency)是指一组数据向某一中心值靠拢的倾向和程度,集中趋势可以反映一组数据的中心值或代 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 值,不同数据类型可选用不同的集中趋势测度值.低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据.4.1.1分类数据:众数一组数据中出现次数最多的变量值称为众数(mode),用M0表示.不受极端值的影响.众数主要用于测度分类数据的集中趋势.也可用于顺序数据和数值型数据.一组数据可以没有众数,也可以有几个众数.众数的特性  (1)一组数据可以没有众数假定一组数据如下:   12345则这组数据没有众数.112345  (2)一组数据可以有多个众数.假定一组数据如下:   1223445那么这组数据有两个众数.1123452图4-1众数示意图无众数一个众数多于一个众数例4.1根据第3章表3-4的数据,计算“饮料品牌”的众数.表3-4不同品牌饮料的频数分布解:这里的变量为“饮料品牌”,是分类变量,不同类型的饮料就是变量值.在所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌.即可口可乐Sheet1 饮料品牌 频数 频率 频率(%) 可口可乐 15 0.30 30 旭日升冰茶 11 0.22 22 百事可乐 9 0.18 18 汇源果汁 6 0.12 12 露露 9 0.18 18 合计 50 1.00 100例4.2表3-6甲城市家庭对住房状况的评价根据第3章表3-6的数据,计算甲城市对住房状况满意度评价的众数.解:这里的变量是回答类别,是顺序变量.甲城市所调查的300户家庭中,对目前住房不满意的户数最多,有108户.所以这组数据的众数为“不满意”这一类别.即不满意Sheet1 回答类别 甲城市 户数(户) 百分比(%) 非常不满意 24 8 不满意 108 36 一般 93 31 满意 45 15 非常满意 30 10 合计 300 100例4.3在某城市中随机抽取9户家庭,调查得每户家庭的人均月收入数据如下(单位:元).要求计算人均月收入的众数.108075010801080850960200012501630解:人均月收入1080的家庭最多,即元莎士比亚著作中的众数一个由claremont学院本科学生组成的“莎士比亚诊所”,用统计分析对58个与莎士比亚同时代的作家进行分析,以确定谁的写作风格与莎士比亚的作品风格最相近。他们从58个作家的作品中选取片段,并将其分成500字一段的小段,对区组中的一些变量进行计数统计,例如,考察52个关键字的出现情况,并找出其众数,由此得出各个作家的主要特征。结果,58个备选者中没有一个能通过众数检验。因此证明,是莎士比亚写下了他本人的诗篇。4.1.2顺序数据:中位数和分位数1.中位数(median)  一组数据按从小到大排列时,处于中间位置上的变量值称为中位数,用Me表示.中位数主要用于测度顺序数据的集中趋势.中位数当然也适用于数值型数据,但不适用于分类数据.  显然,中位数作为位置代表值,其数值不受极大值和极小值的影响.中位数的位置  对未分组数据    中位数的位置=即未分组数据的中位数是1,2, ,n这n个位置的平均.而对于分组数据,则中位数的位置=(4.1)中位数的计算例4.4  根据第3章表3-6的数据,计算甲城市家庭对住房状况满意程度评价的中位数.表3-6甲城市家庭对住房状况的评价解:已知n=300,从而中位数的位置为从累积频数可知,中位数在“一般”这一类中,因此一般Sheet1 回答类别 甲城市 户数(户) 累积户数(户) 非常不满意 24 24 不满意 108 132 一般 93 225 满意 45 270 非常满意 30 300 合计 300 —例4.5在某城市中随机抽取9个家庭,调查得各个家庭的人均月收入数据如下(单位:元),试计算人均月收入的中位数.15007507801080850960200012501630解:把数据排序得75078085096010801250150016302000而中位数的位置=(9+1)/2=5,于是例4.5(续)假定例4.5中随机抽取10个家庭,各个家庭的人均月收入数据如下66075078085096010801250150016302000从而中位数的位置=(10+1)/2=5.5,于是例  根据第3章表3-12的数据,计算电脑销售量的中位数.解:由于n=120,则中位数的位置为中位数为2四分位数(quartile)  与中位数类似的还有四分位数。一组数据按从小到大排列时,处于  位置上的变量值称为第一个四分位数(下四分位数),处于  位置上的变量值称为第三个四分位数(上四分位数),而中位数就是第二个四分位数。四分位数的位置对未分组时下四分位数()的位置=   上四分位数()的位置=而对于分组数据,则下四分位数()的位置=   上四分位数()的位置=(4.3)例例4.6  对例4.5的数据,计算人均月收入的下四分位数和上四分位数.解:已知n=9,得下四分位数和上四分位数的位置于是例解:QL位置=(300)/4=75QU位置=(3×300)/4=225从累计频数看,QL在“不满意”这一组别中;QU在“一般”这一组别中。因此QL=不满意QU=一般 甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数(户) 累计频数 非常不满意不满意一般满意非常满意 24108934530 24132225270300 合计 300 —4.1.3数值型数据:平均数  平均数也称均值(mean),是最常用的集中趋势测度值,易受极端值的影响.主要适用于数值型数据,但不适用于分类数据和顺序数据.1.简单平均数与加权平均数(1)根据未分组的数据计算简单平均数设一组数据为      则平均数 的计算公式为 例如,根据例4.5的数据,计算9个家庭人均月收入的平均数为(元)(4.4)(2)根据分组的数据计算加权平均数  设一组数据      分为k组,各组的组中值和组频数分别为         .则平均数的计算公式为 (4.5)例4.7根据第3章表3-13中的数据,计算电脑销售量的平均数.表4-1 某电脑公司销售量数据平均数计算表解:根据(4.5)式,得(台)Sheet1 按销售量分组 组中值 频数 140~150 145 4 150~160 155 9 160~170 165 16 170~180 175 27 180~190 185 20 190~200 195 17 200~210 205 10 210~220 215 8 220~230 225 4 230~240 235 5 合计 - 120加权平均数(权数对平均数的影响)甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(x): 020100人数分布(f):118乙组:考试成绩(x): 020100人数分布(f):8112调和平均数(Harmonicmean)均值的另一种表现形式,易受极端值的影响.计算公式为调和平均数(例题分析)【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格。 某日三种蔬菜的批发成交数据 蔬菜名称 批发价格(元)xi 成交额(元)fi 成交量(公斤) 甲乙丙 1.200.500.80 18000125006400 15000250008000 合计 — 36900 480003一种特殊的平均数:几何平均数几何平均数(geometricmean)是平均数的另一种类型,主要用于比率或速度的平均.  (1)根据未分组的数据计算几何平均数  设一组数据为    则几何平均数为(4.6) (2)根据分组的数据计算几何平均数  设一组数据     分为k组,各组的组中值和组频数分别为         ,则几何平均数的计算公式为平均增长率对逐年增长率平均增长率应满足(4.8)即或(4.9)几何平均数(例题分析)【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。年平均增长率=114.91%-1=14.91%几何平均数(例题分析)【例】某企业生产某种产品要经过三个连续作业车间才能完成。若某月份第一车间粗加工产品的合格率为95%,第二车间精加工产品的合格率为93%,第三车间最后装配的合格率为90%,则该产品的车间平均合格率为多少?即该产品的车间平均合格率为92.64%。例4.8  一位投资者持有一种股票,2001-2004年的收益率分别为4.5%,2.1%,25.5%和1.9%.计算该投资者在这四年内的平均收益率.解:根据(4.6),得即该投资者的投资平均收益率为108.0787%-100%=8.0787%.4.1.4众数、中位数和平均数的比较1.众数、中位数和平均数的关系图4-2不同分布的众数、中位数和平均数(a)对称分布(b)左偏分布(c)右偏分布2.众数、中位数和平均数的特点  (1)众数是一组数据出现次数最多的数值,不受极端值的影响,但可能没有众数,也可能有两个或两个以上众数。众数主要适用于分类数据的集中趋势测度.  (2)中位数是一组数据处于中间位置上的数值,不受极端值的影响,主要适用于顺序数据的集中趋势测度.  (3)平均数具有优良的统计性质,是实际应用最广泛的集中趋势测度值.主要适用于数值型数据的集中趋势测度.3.众数、中位数和平均数的应用场合例从一家公司中选取一个20名工人的样本,将他们每周除去所有费用后的净收入近似为整数并按升序排列如下(元):240,240,240,240,240,240,240,240,255,255,265,265,280,280,290,300,305,325,330,340。计算(1)、平均数,中位数,众数;,中位数=260元,众数=240元(2)、从偏斜度的角度描述这组工资数据;由于平均数大于中位数,所以这个分布是右偏分布。3.众数、中位数和平均数的应用场合(3)、假如你是这家公司负责劳资问题的副总经理,你会采用哪个测度值代表公司中所有员工的收入水平?因为样本平均数是这三个平均数测度值中的最大值,所以你可能倾向于采用它作为平均数。事实上,使用它非常合适,因为这里牵涉到统计推断,而样本平均数是可用的最稳定的统计量。(4)、假设你是推选出的工会主席,你会采用哪个测度值代表公司中所有员工的收入水平?从你在工资问题谈判中所处的位置出发,你可能倾向于选择众数,或者至少是中位数,而决不会选用平均数。为了说明你选择的测度值是合理的,你应该指出众数代表了样本中大部分人的净收入,或者可以指出从样本中可以看出样本平均数受到极少数高工资的影响。然而,无论是众数还是中位数都会随样本不同而产生很大变化,所以比起平均数都是不稳定的总体估计值。数据类型与集中趋势测度值 数据类型和所适用的集中趋势测度值 数据类型 分类数据 顺序数据 间隔数据 比率数据 适用的测度值 ※众数 ※中位数 ※平均数 ※平均数 — 四分位数 众数 调和平均数 — 众数 中位数 几何平均数 — — 四分位数 中位数 — — — 四分位数 — — — 众数4.2离散程度的度量  离散程度或分散程度是数据分布的另一个重要特征,离散程度的测度值反映数据的分散程度.数据的分散程度越大,则集中趋势测度值的代表性就越差;分散程度越小,则集中趋势测度值的代表性就越好.不同数据类型有不同的离散程度测度值.4.2.1分类数据:异众比率  异众比率(variationratio)是非众数组的频数所占的比例,即异众比率用于衡量众数的代表程度:(1)异众比率大,说明众数的代表性差(2)异众比率小,说明众数的代表性好(4.10)例4.9根据第3章表3–4的数据,计算异众比率.表3-4 不同品牌饮料的频数分布解:根据(4.10)式,得异众比率在所调查的50人当中,购买其他品牌饮料的人数占70%.由于异众比率比较大,因此用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好.Sheet1 饮料品牌 频数 频率(%) 可口可乐 15 30 旭日升冰茶 11 22 百事可乐 9 18 汇源果汁 6 12 露露 9 18 合计 50 1004.2.2顺序数据:四分位差  四分位差(quartiledeviation)是上四分位数与下四分位数之差,即(4.11)  四分位差反映了下四分位数至上四分位数之间(即中间的50%数据)的离散程度或变动范围.四分位差越大,说明中间这部分数据越分散,而四分位差越小,则说明中间这部分数据越集中.四分位差在一定程度上可用于衡量中位数的代表程度.四分位差(例题分析)解:为了计算顺序数据的四分位差,需要把各类别数量化。设非常不满意为1,不满意为2,一般为3,满意为4,非常满意为5,已知QL=不满意=2QU=一般=3四分位差:QD=QU—QL=3–2=1 甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数(户) 累计频数 非常不满意不满意一般满意非常满意 24108934530 24132225270300 合计 300 —例4.10  根据例4.6的数据,已求得,从而四分位差为(台)4.2.3数值型数据:方差和标准差  测度数值型数据离散程度的主要方法有极差、平均差、方差和标准差,但最常用的是方差和标准差.1.极差  极差(range)是一组数据的最大值与最小值之差,即  未分组数据:R=最大值-最小值    分组数据:R≈最后一组的上限-第一组的下限(4.12)  极差计算简单,是描述数据离散程度的最简单的测值.但极差易受极端值的影响,并且不能反映中间数据的分散程度。  例如,根据例4.5的数据,得9个家庭人均月收入的极差为   R=2000-750=1250(元)2.平均差  平均差(meandeviation)是各变量值与均值离差绝对值的平均.平均差虽然能全面反映一组数据的分散程度,但由于离差取了绝对值,这给计算和统计性质的讨论带来不便,因而实际工作中应用较少.计算公式为:未分组数据组距分组数据(4.13)(4.14)例4.11含义:每一天的销售量与平均数相比,平均相差17台 某电脑公司销售量数据平均差计算表 按销售量分组 组中值(Mi) 频数(fi) 140—150150—160160—170170—180180—190190—200200—210210—220220—230230—240 145155165175185195205215225235 491627201710845 4030201001020304050 1602703202700170200240160250 合计 — 120 — 20403.方差和标准差  方差和标准差(varianceandstandarddeviation)是最常用的离散程度测度值.根据总体数据计算的称为总体方差或总体标准差,而根据样本数据计算的则称为样本方差或样本标准差.(1)总体方差和标准差方差的计算公式未分组数据:组距分组数据:标准差的计算公式未分组数据:组距分组数据:总体标准差(例题分析)某车间50名工人日加工零件的标准差计算表解:计算过程列于表,根据计算公式得(个) 分组(个) 组中值() 频数() 105~110 107.5 3 246.49 739.47 110~115 112.5 5 114.49 572.45 115~120 117.5 8 32.49 259.92 120~125 122.5 14 0.49 6.86 125~130 127.5 10 18.49 184.90 130~135 132.5 6 86.49 518.94 135~140 137.5 4 204.49 817.96 合计 - 50 - 3100.5(2)样本方差和标准差未分组数据:组距分组数据:未分组数据:组距分组数据:方差的计算公式标准差的计算公式(4.15)(4.17)(4.18)自由度的说明1、一组数据中可以自由取值的数据的个数2、当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值3、例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值4、样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量例4.12样本标准差的计算含义:每一天的销售量与平均数相比,平均相差21.58台. 某电脑公司销售量数据平均差计算表 按销售量分组 组中值(Mi) 频数(fi) 140—150150—160160—170170—180180—190190—200200—210210—220220—230230—240 145155165175185195205215225235 491627201710845 1600900400100010040090016002500 64008100640027000170040007200640012500 合计 — 120 — 55400方差的展开公式  在实际计算时,也可按展开公式计算方差 1.2.3.4.4.相对位置的测量(1)标准分数标准分数(性质)标准分数(性质)标准分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。例4.13根据例4.5的数据,计算每个家庭的人均月收入的标准分数.解:根据例4.5的数据求可得,由(4.19)式得每个家庭的人均月收入的标准分数如下(表4-4)表4-49个家庭人均月收入标准分数计算表可以看出,收入最低的家庭其人均收入与平均数相比低1.042个标准差;而收入最高的家庭人均收入比平均数高1.853个标准差。Sheet1 家庭编号 人均月收入(元) 标准化值Z 1 1500 0.695 2 750 -1.042 3 780 -0.973 4 1080 -0.278 5 850 -0.811 6 960 -0.556 7 2000 1.853 8 1250 0.116 9 1630 0.996标准分数(例题分析)前NBA巨星MichaelJordan身高78英寸,而WNBA运动员R.Lobo身高76英寸,很明显Jordan高出2英寸,但谁相对来说高一些呢?(男性平均身高69英寸,标准差为2.8英寸;女性平均身高63.6英寸,标准差为2.5英寸)Jordan的身高高于平均数3.21个标准差,而Lobo的身高高于平均数4.96个标准差。(2)经验法则经验法则表明:当一组数据对称分布时▽约有68%的数据在均值加减1个标准差的范围之内▽约有95%的数据在均值加减2个标准差的范围之内▽约有99%的数据在均值加减3个标准差的范围之内(4.15)(3)切比雪夫不等式(Chebyshevinequality)对于k=2,3,4,该不等式的含义是▽至少有75%的数据在平均数加减2个标准差的范围之内▽至少有89%的数据在平均数加减3个标准差的范围之内▽至少有94%的数据在平均数加减4个标准差的范围之内1)如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2)切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”3)对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/)的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数4.2.4相对离散程度:离散系数  方差或标准差都反映了数据分散程度的绝对值,而影响方差或标准差数值大小有2个方面的原因:  (1)与这组数据的平均数大小有关  (2)与这组数据的计量单位有关   例:设一组数据为1,2,3(n=3),则.而另一组数据为100,200,300(n=3),则.  从而对于不同平均水平或不同计量单位的两组数据,不能通过直接比较方差或标准差来表明数据离散程度的大小.为消除平均水平与计量单位的影响,需要计算离散系数(4.20)例4.14表4-5 某管理局所属8家企业的产品销售数据某管理局抽查了8家企业,其产品销售数据见表4-5.试比较产品销售额与销售利润的离散程度.例4.14的解解:由于销售额与利润额的平均数大小不同,不能直接按标准差进行比较,需计算离散系数.根据表4-5数据,得由于   ,说明销售额的离散程度小于销售利润的离散程度.数据类型与离散程度测度值 数据类型和所适用的离散程度测度值 数据类型 分类数据 顺序数据 数值型数据 适用的测度值 ※异众比率 ※四分位差 ※方差或标准差 — 异众比率 ※离散系数(比较时用) — — 平均差 — — 极差 — — 四分位差 — — 异众比率4.3偏态与峰态的测度  偏态与峰度是对数据分布形状的测度4.3.1偏态及其测度(1)未分组样本数据的偏态系数(2)分组样本数据的偏态系数设一组数据      分为k组,各组的组中值和组频数分别为         .则偏态系数的计算公式为 (4.22)(1)   ,为对称分布.(2)   ,为右偏分布.(3)   ,为左偏分布.(4)  越大,则偏斜程度就越大.例4.15根据表3-9的数据,计算电脑销售量的偏态系数.表4-6某电脑公司销售量偏态与峰度系数计算表例4.15的解  已知根据(4.22)式,得偏态系数为正值,且数值较小,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数.4.3.2峰态及其测度(1)未分组样本数据的峰态系数  峰态(kurtosis)是对分布尖峭或平缓程度的测度. 设一组数据     ,则峰态系数(kurtosiscoefficient)的计算公式为 (4.23)(2)分组样本数据的峰态系数  峰态是与正态分布相比较而言的,由于正态分布的峰度系数等于0,所以  (Ⅰ)   ,峰态适中.  (Ⅱ)   ,比正态分布更尖峭,为尖峰分布.  (Ⅲ)   ,比正态分布更平缓,为平峰分布.  设一组数据      分为k组,各组的组中值和组频数分别为         .则峰态系数的计算公式为 (4.24)例4.16  根据表4-6的数据,计算电脑销售量的峰态系数.  解:根据(4.24)式,得由于     ,说明电脑销售量的分布为平峰分布.偏态与峰态(从直方图上观察)按销售量分组(台)结论:1.为右偏分布2.峰态适中某电脑公司销售量分布的直方图用Excel计算描述统计量把第3章表3-9电脑公司的销售量的数据输入到Excel工作表中,然后按下列步骤操作:1.选择【工具】下拉菜单,并选择【数据分析】命令.2.在【数据分析】对话框中,选择【描述统计】,并单击【确定】.3.当对话框出现时(1)在【输入区域】方框内键入数据区域(2)在【输出选项】中选择输出区域(3)选择【汇总统计】(4)选择【确定】计算结果列于表4-7.表4–7Excel输出的描述统计量Sheet1 列1 平均 184.5666666667 标准误差 1.9791537299 中值 182 众数 196 标准偏差 21.6805428524 样本方差 470.0459383754 峰值 -0.2243561614 偏斜度 0.4052847826 区域 96 最小值 141 最大值 237 求和 22148 计数 120
本文档为【统计学第4章】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
xxj7584
暂无简介~
格式:ppt
大小:747KB
软件:PowerPoint
页数:0
分类:建造师考试
上传时间:2020-03-20
浏览量:0