首页 资料的统计分析--单变量分析概述

资料的统计分析--单变量分析概述

举报
开通vip

资料的统计分析--单变量分析概述第十章资料的统计分析——单变量分析一、单变量描述统计 单变量统计分析分两大方面,即,描述统计和推论统计. 描述统计的主要目的在于用最简单的概括性反映出大量数据资料所容纳的基本信息.它的基本方法包括集中量数分析和离散量数分析等. 推论统计的主要目的使用从样本调查中所得到的数据资料来推断总体的情况,主要包括区间估计和假设检验等1.频数分布与频率分布 (1)频数分布(FrequencyDistribution)频数分布是指一组数据中取不同值的个案的次数分布情况.它一般是以频数分布表的形式表达.(见...

资料的统计分析--单变量分析概述
第十章资料的统计分析——单变量分析一、单变量描述统计 单变量统计分析分两大方面,即,描述统计和推论统计. 描述统计的主要目的在于用最简单的概括性反映出大量数据资料所容纳的基本信息.它的基本方法包括集中量数分析和离散量数分析等. 推论统计的主要目的使用从样本调查中所得到的数据资料来推断总体的情况,主要包括区间估计和假设检验等1.频数分布与频率分布 (1)频数分布(FrequencyDistribution)频数分布是指一组数据中取不同值的个案的次数分布情况.它一般是以频数分布表的形式表达.(见表1.)频数分布表的作用:A.简化资料.将调查得到的杂乱的原始数据,以十分简洁的统计表反映出来.B.清楚地了解调查数据的众多信息.(2)频率分布频率分布(percentagesdistribution)一组数据中不同取值的频数相对于总数的比率分布情况.常是以百分比的形式来表达.(见表2)频率分布表是不同类别在总体中的相对数量分布.她十分方便于不同总体和不同类别之间的比较.因此这种分布表的应用更为普遍.例1、某班学生的年龄分布某班学生的年龄分布一、单变量描述统计1、频数分布与频率分布 频数分布:一组数据中取不同值的个案的次数分布情况 (数量) 频率分布:一组数据中不同取值的频数相对于总数的比率分布情况。通常以百分比的形式表达。(相对数量)表9-1某班学生父亲的职业分布表9-2某班学生父亲职业分布 职业类别 人数 工人 4 干部 6 教师 3 商人 5 农民 2 合计 20 职业类别 百分比 工人 20 干部 30 教师 15 商人 25 农民 10 合计 1002.集中趋势分析 集中趋势分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。 最常见的集中量数有算术平均数,(简称平均数,也称为均值),众数和中位数三种. 2.集中趋势分析 (1)平均数(mean)平均数是使用得最多的集中量数.平均数是指总体各单位数值之和除以总体单位数目所得之商统计分析中习惯以X来表示.其 计算公式 六西格玛计算公式下载结构力学静力计算公式下载重复性计算公式下载六西格玛计算公式下载年假计算公式 如下∑Xn①从原始数据计算平均数 例2:某班10名学生的年龄分别为20、21、19、19、19、20、20、21、22、18、20岁,求他们的平均年龄。②从单值分组资料计算平均数首先要将每一个变量值乘以对应的频数f,得出各组的数值之和,然后将各组的数值之和全部相加,最后除以单位总数.∑Xf∑Xf∑fn例3:调查某年级150名学生的年龄得到下列结果: 练习:100名工人的收入资料如下,计算他们的平均工资 表100名工人的收入分布③从组距分组资料计算均值 在调查收入年龄等方面情况时,常常得到组距分组形式的资料,如我们知道各年龄段的人数,若要计算平均年龄就需要计算出各组的组中值,然后在按照单值分组资料计算平均数的公式计算. 组中值的计算公式为: 上限+下限 2例4:调查某企业100名职工的收入得到如下资料,请计算平均收入. 练习:调查100名学生的成绩得到资料如下,求平均成绩 表3100名学生的成绩分布注意:开口组的组中值前面缺下限的开邻组组距口组的组中值2后面缺上限的开口邻组组距组的组中值2平均数计算公式: 特点: 最常用的测度值 均值利用了全体数据 易受数据中极端值的影响 用于数值型数据,而不能用于分类数据和顺序数据(2)众数(Mode)众数是一组数据中出现次数最多(即频数最高)的那个数值。众数与平均数一样也可用来概括反映总体的一般水平或典型情况. 众数的求法:A.单值分组资料:频数最大者所对应的标志值B.组距分组资料:组中值法摘补法 ①单值分组资料先在频数栏中找出最大的频数,然后找到最大频数所对应的标志值,这一标志值即为众数.(2)众数(Mode)②组距分组资料(组中值法)首先通过直接观察找出最高的频数,然后根据最高的频数找到它所对应的组;最后求出该组的组中值即为众数. 分类数据的众数(算例)数据-分类数据M0=商品广告 某城市居民关注广告类型的频数分布 广告类型 人数 比例 频率(%) 商品广告服务广告金融广告房地产广告招生招聘广告其它广告 11251916102 0.5600.2550.0450.0800.0500.010 56.025.54.58.05.01.0 合计 200 1 100 顺序数据的众数(算例)数据:顺序数据M0=不满意 甲城市家庭对住房状况 评价 LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载 的频数分布 回答类别 甲城市 户数(户) 百分比(%) 非常不满意不满意一般满意非常满意 24108934530 836311510 合计 300 100(2)众数(Mode) 众数(Mode)特点: 不受极端值的影响 可能没有众数或有几个众数(不唯一性) 主要用于分类数据,也可用于顺序数据或数值型数据确定众数根据所依据资料的不同会有两种情况  1、根据原始数据或单变量值分组资料确定众数  如果被研究总体单位数≤30,在对变量值由小到大排序后,就很容易找到众数。  若对原始数据按单变量值进行分组,得到次数分布,那么次数最大的变量值即众数。  2、根据组距分组资料确定众数  对总体比较大,离散型变量数值表现较多连续型变量,按组距分组形成次数分布。由组距分组资料计算众数,(3)中位数(Median)把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数.它描述的是定序变量以上层次的变量.它的含义是整个数据中有一半数值在它之上,另一半数值在它之下.公式为:Md=(n+1)÷2(3)中位数(Median)①原始资料计算中位数例:调查五个工厂的职工人数,按规模由小到大依次为200人,300人,500人,800人,1000人.依据公式(5+1)÷2=3为中间位置.即所对应的数值500人即为中位数.★当数据为偶数时中位数处于中间两个数值之间,这时一般以中间两个数值的平均数作为中位数.(3)中位数(Median)②单值分组资料计算中位数当资料为单值分组数据时,也是先求出数据组的中间位置,然后再找出其对应值,但寻找方式需要注意(以表3为例).先计算中间位置:(n+1)÷2=(150+1)÷2=75.5即,中间位置在第75个数值与76个数值之间,为了找到这个位置,需要列出累计频数.(3)中位数(Median)③由组距分组资料求中位数具体方法是:先列出累计频数,然后按同样的方法确定中位数所在的组,最后利用下述公式计算出中位数的值.L为中位数所在组的下限值.Cf(m-1)为中位数所在组以上的累计频数,为fm为中位数所在组的频数,i为中位数所在组的组距.(以表4为例)(3)中位数(Median) 中位数特点: 不受极端值的影响 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,各变量值与中位数的离差绝对值之和最小,即(4)中位数与平均数的比较 平均数要求计算所有的数值,而中位数只用到数值的相对位置,一般说平均数比中位数利用了更多的信息,更全面和准确. 平均数容易受到极端值的影响,中位数则不会受到这种影响. 平均数是一种比中位数更为稳定的量度,它随样本的变化比较少. 平均数要求定距以上变量,中位数要求定序以上变量.3、离散趋势分析 含义:指用一个特别的数值来反映一组数据相互之间的离散程度。 作用: ①与集中量数一起,共同反映资料分布的全面特征 ②对相应的集中量数的代表性作补充说明。 常见的离散量数统计量有全距、标难差、异众比率、四分位差等。其中, 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差、异众比率、四分位差分别与平均数、众数、中位数相对应,判定和说明平均数、众数、中位数代表性的大小。3、离散趋势分析 离散程度的描述统计量 适用条件:主要用于数值型数据 (1)全距(极差)(Range) 定义:一组数据的最大值与最小值之差. 计算公式:3、离散趋势分析 全距的特征: 离散程度的最简单测度值 易受极端值的影响 未考虑数据的分布意义: 极差越大,在一定程度上说明这组数据的离散程度越大,集中量数的代表性越低。3、离散趋势分析 (2)标准差:StandardDeviation一组数据对其平均数的偏差的平方的算术平均数的平方根。(方差的算术平方根) 例4、某校3个系各选5名同学,参加智力竞赛,他们的成绩分别如下: 中文系:78、79、80、81、82 数学系:65、72、80、88、95 英语系:35、78、89、98、100 标准差的计算A.根据原始资料计算B.单值分组数据资料计算C.组距分组资料计算:先计算出各组的组中值,然后按单值分组资料计算公式和方法计算即可。 2×10+3×120+4×50+5×20 X==3.4人 200(3)异众率VariationRatio 含义:一组数据中非众数的次数相对于总体全部单位的比率。 计算表2、表3的异众率。150-50VR==0.67=67%150异众比率的意义与作用 意义:众数所不能代表的其他数值,即非众数的数值在总体中的比重. 作用:异众比率越大,即众数所不能代表的其他数值在总体中的比重越大时,众数在总体中所占的比重自然越小,众数的代表性越小. 反之,异众比率越小,即众数所不能代表的其他数值在总体中的比重越小,众数的代表性越大.(4)四分位差InterquartileRange 先将一组数据按大小排列顺序,然后将其4等分,去掉序列中最高的1/4和最低的1/4,仅就中间的一半数值来测定序列的全距。 Q1的位置(第一个四分位点)=(n+1)/4 Q3的位置(第三个四分位点)=3(n+1)/4 QD=Q3-Q1计算四分位差的方法 (1)对原始资料: 例:调查11位同学的年龄如下:17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、。 首先,求出Q1和Q3的位置: Q1的位置===3 Q3的位置===9 其次,从数序中找出Q1=18,Q3=21 则四分位差Q=Q3—Q1=21—18=3计算四分位差的方法 例:甲村有8户人家,每户人数如下: 2,3,4,7,9,10,12,12 首先,求出Q1位置==2.25 Q1=3+0.25(4—3)=3.25 Q3位置==6.75 Q3=10+0.75(12—10)=11.5 所以Q=11.5—3.25=8.25计算四分位差的方法 (2)对单值分组资料表9-4学生的学业成绩 等级 fcf↓cf↑ 甲乙丙丁 5580202575305555258025 总数 80计算四分位差的方法 据公式可知: Q1位置==20.25 Q3位置==60.75 从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以 Q=乙—丁=两个等级计算四分位差的方法 (3)对组距分组资料: 对组距分组资料Q1和Q3的计算公式为: Q1=L1+[]w1 Q3=L3+[]w3其中L1=Q1属组之真实下限L3=Q3属组之真实下限f1=Q1属组之次数f3=Q3属组之次数cf1=低于Q1属组下限之累积次数cf3=低于Q3属组下限之累积次数w1=Q1属组之组距w3=Q3属组之组距n为全部个案数计算四分位差的方法表9-5某企业100名职工收入的分布 收入(元)职工数(人)累计频数组中值Xf 100—19910101501500200—29910202502500300—399406035014000400—49920804509000500—5992010055011000 合计100计算四分位差的方法 表9-5所示的资料 其Q1位置===25.25, 所以Q1在300—399组内; Q3位置===75.75, 所以Q3在400—499组内。计算四分位差的方法 由公式可知: Q1=300+×100=312.5 Q3=400+×100=475 所以Q=Q3-Q1=162.5(5)离散系数 离散系数:CoefficientofVariation,标准差与平均数的比值,用百分比表示. 意义:对同一总体中的两种不同的离散量数统计量进行比较;对两个不同总体中的同一离散量数统计量进行比较。 公式: 离散系数的作用离散系数 例题 求函数的导数例题eva经济增加值例题计算双重否定句的例题20道及答案立体几何例题及答案解析切平面方程例题 :对广州和武汉两地居民生活质量调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360元,标准差为80元。问广州居民相互之间在收入的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些? 广州居民收入的离散系数为 武汉居民收入的离散系数为 可见,比较而言,武汉居民相互之间在收入上的差异程度,比广州居民相互之间的差异程度更大一些。请计算下表中工人之间的收入差别与教师之间的差别哪个更大?二、单变量推论统计 推论统计——利用样本的统计值对总体的参数值进行估计的方法。 1、区间估计(IntervalEstimation) 就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来估计总体的参数值。 表述:“我们有95%的把握认为,全市职工的工资收入在182元至218元之间”区间估计 注意:区间估计中的可靠性和区间大小成正比关系 (1)总体均值的区间估计 公式:区间估计 区间估计中的可取性或把握性是指用某个区间去估计总体参数时,成功的可能性有多大。对于同一总体和同一抽样规模来说,所给区间的大小与作出这种估计所具有的把握性成正比。因此,人们总是需要在这两者之间进行平衡和选择。区间估计的一般程序 第一,确定置信水平。社会研究一般用90%、95%和99%的置信水平。在计算中,置信度常用1—a来表示。 第二,计算标准误差,根据样本分布特点和样本不同统计值,分别采用不同的方法确定标准误差。 第三,根据样本统计值和标准误差确定置信区间。 例10、调查某厂职工的工资状况,随机抽取900名工人作样本,调查得到他们的月平均工资为186元,标准差为42元。求95%的置信度下,全厂职工的月平均工资的置信区间是多少?总体均值的区间估计 将调查资料代入总体均值的区间估计公式得 查得,故总体均值的置信区间为 即183.26~188.74元 练习: 从某校随机抽取300名教师进行调查,得出他们的平均年龄为42岁,标准差为5岁。求95%的置信度下,该校全体教师平均年龄的置信区间是多少。区间估计 (2)总体百分比的区间估计 公式: 例11从某工厂随机抽取400名工人进行调查,结果表明女工的比例为20%。现在要求在90%的置信度下,估计全厂工人中女工比例的置信区间。 练习: 从某高校随机抽取200名学生进行调查,发现抽烟的比例为15%。现要求在95%的置信度下,估计全校学生中抽烟比例的置信区间。2、假设检验 (1)概念:统计假设,非理论假设——先对总体的某一参数指作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受。 例如:根据以往的资料,某地女青年的平均初婚年龄是20岁,但今年根据100名女青年的随机抽样调查,平均年龄为21岁,问能否认为该地女青年的初婚年龄比以往有所推迟? 又如:根据随机调查,文化程度高的家庭,平均子女数也要少些。两者呈负相关r=-0.3。问这样的结论是否具有普遍性 (2)原假设和备择假设 原假设H0:又称虚无假设,u=20岁,r=-0.3 备择假设H1:又称研究假设,有三种情况 u>20,u<20或u≠20 前两种情况称为单边假设,第三种情况称为双边假设。 (3)假设检验的基本原理:小概率原理 两个方面:A、小概率事件在一次观察中是不可能出现的。B、如果在一次观察中出现了小概率事件,那么,合理的想法,是否定原有事件具有小概率从假设。(4)步骤: ①建立虚无假设, ②根据需要选择适当的显著性水平(小概率的值,通常有α=0.05,α=0.01等) ③根据样本数据计算出统计值,并根据显著性水平查出对应的临界值。 ④将临界值与统计值比较,若统计值Z的绝对值小于临界值,则样本统计值落入接受域,接受虚无假设,反之,则样本统计值落入拒绝域,拒绝虚无假设,接受研究假设。(5)总体均值检验 例:见书 公式: X:样本平均值 M:假设平均值 书上例12 例12某单位职工上月平均收人为210元,本月调查了100名职工,平均月收入为220元,标准差为15元。问该单位职工本月平均收入与上月相比是否有变化?例题 解:首先建立虚无假设(用H0表示)和研究假设(用H1表示),即有 H0:M=210H1:M≠210 选择显著性水平a=0.05,由标准正态分布查 Z(0.05/2)=1.96 然后根据样本数据计算统计值,其公式为: 由于,所以,拒绝虚无假 设,接受研究假设,即从总体上来说,该单位职工月平均收入与上月相比有变化。 解首先建立虚无假设(用表示)和研究假设(用表示),即有: 选择显著性水平a=0.05,查表得 计算统计量由于Z=6.67>,所以,拒绝虚无假设,接受研究假设。即从总体上说,该单位职工月平均收入与上月相比有变化。(6)总体百分比的假设检验 例:见书例13 公式: 例13一所大学全体学生中抽烟者的比例为35%,经过学习和戒烟宣传后,随机抽取100名大学生进行调查,结果发现抽烟者为25名。问戒烟宣传是否收到了成效? 解设 选择显著性水平a=0.05,查表得 计算统计量 由于>,所以,拒绝虚无假设,接受研究假设。即从总体上说,戒烟宣传收到了成效。
本文档为【资料的统计分析--单变量分析概述】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
百里登峰
暂无简介~
格式:ppt
大小:521KB
软件:PowerPoint
页数:0
分类:工学
上传时间:2020-07-30
浏览量:23