统计学的发展

统计学的发展第一节统计学的发展（1）统计学发展背景 ● 当今信息时代，无论社会、政治、军事、经济，还是生物医学、教育心理、工农业生产等各行各业都有大量的数据，需要我们进行分析，从中挖掘出有用的证据、消除虚假的信息，发现事物内部的规律性。数据 ≠ 信息数据与信息的关系数据是反映客观的记录符号；信息是潜在于数据中的意义；有了数据不等于有了信息，数据只有经过科学加工整理、统计分析后才转化成信息。（2）什么是统计学？ ? 统计学作为一门科学始于19世纪，但统计工作已有几千年的历史。 ? 统计学的英语单词是stat...

第一节统计学的发展（1）统计学发展背景 ● 当今信息时代，无论社会、政治、军事、经济，还是生物医学、教育心理、工农业生产等各行各业都有大量的数据，需要我们进行分析，从中挖掘出有用的证据、消除虚假的信息，发现事物内部的规律性。数据 ≠ 信息数据与信息的关系数据是反映客观的记录符号；信息是潜在于数据中的意义；有了数据不等于有了信息，数据只有经过科学加工整理、统计分析后才转化成信息。（2）什么是统计学？ ? 统计学作为一门科学始于19世纪，但统计工作已有几千年的历史。 ? 统计学的英语单词是statistics，来源于state,即指政府，官方所要求的信息。 ? Webster国际大辞典中定义，统计学是:“ a science dealing with the collection, analysis, interpretation, and presentation of masses of numerical data”。统计学是一门关于收集、分析、解释和表达数据的科学。 ? 统计学之父——威廉·配第，英国数学家，多才多艺，一生有许多发明，如复印机等。他有一句至今仍流行的名言：“我们用长度和重量来反映一个国家的情况”。 ? 马克思在《资本论》中写道，配第是政治经济学之父，在某种程度上也可以说是统计学的创始人。——载自《欧美统计学史》(高庆丰编著中国统计出版社1987年版第33-38页)。 ? 2000年，法国政府已将统计学列入二十一世纪影响法国社会发展的十个重大领域之一。 ? 2001年, 中国国家教育部为推进基础教育改革而推出新课程标准，将统计学纳入新的小学数学课程。要求小学生要“经历运用数据描述信息、作出推理的过程，发展统计观念”。生活中常见的统计学问题 ? 体育彩票能否中（大）奖？（概率论） ? 父母身高影响子女的身高？小明的身高能超过他的爸爸吗?（相关与回归） ? 政治人物的支持度、民意测验、大选（问卷设计，抽样） ? 全国居民消费价格总水平（CPI）（相对数） ? 如何判断药物的疗效？治疗爱滋病的新药有效果吗?（假设检验） ? 中考、高考录取分数的确定（原始分与标准分）差异量数描述统计集中量数相关分析点估计教育统计统计估计→参数估计区间估计推论统计参数检验假设检验非参数检验多元统计：因素分析、聚类分析、判别分析、多元方差分析、多重回归 ? 描述统计学就是对所搜集的资料进行加工处理的一种方法。 ? 描述统计学是推断统计学的基础。 ? 描述统计学常用的特征量集中量差异量偏态量峰态量相关量 ? 推断统计是根据部分数据推断更一般情况的方法。 ? 推断统计包括总体参数估计和假设检验两个部分教育统计学是应用统计学的一个分支，是数理统计学与教育学的一门交叉学科。 1.重要的科学研究方法。 2.定量分析的有效工具。发现规律，而不是创造规律第四节教育统计学的发展 Francis Galton (1822-1911)是生物统计学派的创始人 ● 创用和发展了“相关”与“回归”. ● 主要著作有：《遗传才能和天才》、《生命和社会统计学中的几何平均数》、《对人类才能及其发展的调查》等 . Karl Pearson(1857—1936）:是现代统计学之父 ● Galton的学生开创了统计方法学，把这学科从描述性统计改变为推断性统计。提出了Pearson 曲线体系和卡方检验法。 ● 1901年和Galton、Weldon创办了世界上最权威的生物统计学杂志《Biometrika》。国外：1904年美国人桑代克（E.L.Thorndike)撰写的《心理与社会测量导论》被认为是世界上第一本有关教育与心理统计学的专著。目前，在国外大学，统计学作为一门方法学课程，几乎每个专业的大学生都要学习。 2.国内：20世纪80年代初恢复，重视统计软件包等应用。发展趋势：与计算机密切配合，用SPSS. SAS. SEM、LISERL、AMOS、EQS等进行模型建构与分析。第五节教育统计学基础概念一、数据类型：对研究数据进行分类，了解数据类型和水平，对选用恰当的统计方法至关重要。 1.根据数据的来源：计数数据、测量数据 2.根据数据的测量水平：称名数据、顺序数据、等距数据、比率数据 3.根据数据的连续性：离散数据、连续数据 1.计数数据 (count data) ? 是指计算个数的数据。如学生人数、教师人数、学校数等。 ? 特点：没有度量衡单位；多为间断性资料。 2.测量数据(measurement data) ? 是指借助于一定的测量工具或一定的测量标准而获得的数据。如身高、体重、考试分数等。 ? 特点：有度量衡单位多为连续性资料 3.称名数据(nominal data) 只说明某一事物与其他事物在属性上的不同或类别上的差异，它具有独立的分类单位，其数值一般取整数形式，只计算个数，并不说明事物之间差异的大小。比如性别、颜色类别、人口数、被试对某一事物的态度（赞成、反对、没意见）等。它们只能用具有相同属性的个体数目来统计。 4.顺序数据(ordinal data) ? 是既无相等单位，也无绝对零的数据，是按事物某种属性的多少或大小，按次序将各个事物加以排列后获得的资料数据。如学生的等级评定、喜爱程度等。这类数据不能进行加减乘除运算。 5.等距数据（interval data）是有相等单位，但无绝对零点的数据。这类数据只能使用加减运算，不能使用乘除运算。如各种能力分数。某一能力测验，A得80分，B得40分，可以表明学生A分数高于B分数，但不能说学生A的能力是B的2倍，也不能说得分为0的学生，他的能力是0。 6.比率数据（ratio data） ? 既表明量的大小，也有相等的单位，同时还有绝对的零点，如身高、体重等。父亲的身高1.8米，儿子的身高0.9米，可以说父亲的身高是儿子身高的两倍。二、变量、随机变量、观测值 ? 变量：是指观察、调查中想要获得的数据。用x表示，因其数值具有不确定性，故称为变量，变量是可以取不同值的量。 ? 随机变量：用来表示随机现象的变量，称为随机变量。一般用大写的Ｘ或Ｙ表示随机变量。 ? 观测值：随机变量所取得的值，称为观测值。一个随机变量可以有许多个观测值。三、总体、个体、样本 ? 总体：是指具有某种特征的一类事物的全体。 ? 个体：构成总体的每个单元称为个体。 ? 样本：从总体中抽取一部分个体，称为总体的一个样本。四、参数、统计量 ? 参数：总体的统计指标。如总体平均数μ、标准差σ等。 ? 统计量：样本的统计指标，如样本平均数和标准差为统计指标统计量参数平均数 μ 标准差 S σ 相关系数 r ρ 回归系数 b β 五、误差 ? 误差：实际观察值与客观观察值之差 ? （1）系统误差 ? 概念：在实际观测过程中，由于被试对象、研究者、仪器设备、研究方法、非实验因素等原因造成的有一定倾向性或规律性的误差。也叫偏差、偏倚（bias）。 ? 特点：观察值有系统性、方向性、周期性的偏离真值。 ? 可以通过严格的技术措施消除。 ? （2）随机误差排除上述误差后尚存的误差，受多种无法控制的因素的影响。特点：大小方向不一的随机变化。随机测量误差（random measurement error） ——提高操作者熟练程度可以减少这种误差随机抽样误差（ random sampling error）：由抽样造成的样本统计量和总体参数间的差异。不可避免，但有一定的分布规律，可估计。六、小概率事件必然事件 P = 1 不可能事件 P = 0 随机事件 0< P <1 P ≤ 0.05（5％）或P ≤ 0.01（1％）称为小概率事件，统计学上认为不大可能发生。第一节数据的初步整理 ? 整理数据的基本方式有排序和统计分组 ? 1.数据排序：就是按照某种标准，对收集到的杂乱无章的数据按照一定顺序标准进行排列。如按照考试分数、被试的年龄或性别或班级、调查问卷的标识码等进行排列。 ? 2.统计分组：就是根据被研究对象的特征，将所得数据划分到各个组别中去。统计分组是对数据进行整理的重要步骤。统计分组应注意的问题 ? 1.分组要以被研究对象的本质特性为基础。专业知识的了解和熟悉对正确分组有重要的作用。如学业成绩研究要按学科性质分类；智力测验按言语智力、操作智力和总的智力分数分类。 ? 2.分类标志要明确，要能包括所有的数据。第二节统计表 ? 统计表：是用来表达统计指标与被说明的事物之间数量关系的表格。 ? 构成：标题表号标目线条数字表注第三节次数分布表（频数分布表） ? 频数：某一随机事件在n次试验中出现的次数称为这个随机事件的频数。 ? 频数分布：各种随机事件在n次试验中出现的次数分布为频数分布。 ? 1.简单频数分布表（1）间断变量的频数分布表间断变量的频数分布表比较简单，不用考虑分组等细节。（2）连续变量的频数分布表 ? ①求全距R=最大值-最小值 ? ②决定组数（k)和组距(i)： ? 习惯分组以10-15组为宜。 ? 最常用的组距为2、3、5、10个单位。 ? 若数据的总体分布为正态分布，可采用 N为数据个数，K取近似整数 ? ③决定组限：即每组的起止范围。每组的最低值为下限，最高值为上限。组中值=（上限+下限）/2 ? ④登记频数 2.累计频数和累计百分比分布表 ? (1)累计频数分布表:用累计频数表示的频数分布表.步骤同简单频数分布表相同. ? (2)累计百分比分布表:它用累计百分比表示的频数分布表. 第四节统计图 ? 统计图：是用来表达统计指标与被说明的事物之间数量关系的图形。 ? 统计图的结构：标题：在图的下方图号标目图形图注：在图题的下方常用统计图（1）直条图（条形图）（2）圆形图（饼图）（3）线形图（折线图）（4）直方图（5）散点图第三章集中量数 ? 频数分布的两个基本特征：（1）集中趋势（2）离散趋势 ? 数据的集中趋势就是指数据分布中大量数据向某方向集中的程度。（集中量数） ? 数据的离散趋势是指数据分布中数据彼此分散的程度。（差异量数） ? 算术平均数(arithmetic mean)，简称平均数（average)或均值、均数 (mean)。它是统计学中最容易理解最常应用的一种集中量数。用表示，它代表每组观测值的重心。如1、4、7、8的均数为5。一、算术平均数的几个特征 ? 1.观察值的总和等于算术平均数的N倍。 ? 2.各观察值与其算术平均数之差的总和等于0。 ? 3.在一组数据中，每一个数据加上常数C，则所得的平均数为原来平均数加常数C。 ? 4.在一组数据中，每一个数都乘以一个常数C所得的平均数为原来的平均数乘以常数C。二、算术平均数的计算 2.频数分布表计算（数据分组后）： X表示每组的组中值 f表示每组的频数三、算术平均数的意义、优缺点意义：是总体平均数的最佳估计值。当观测次数无限增加时，算术平均数趋近于真值。优：反应灵敏、计算严密、计算简单、简明易懂、适合代数运算、受抽样变动的影响小。缺：易受极端值的影响。数据不确切时，无法进行计算。第二节中数 ? 中数（median)：是按顺序排列在一起的一组数据中居于中间位置的数，又称中位数、中值。用Md表示。 ? 中数可能是数据中的某一个数值，也可能不是这组数据中的某一个数值。二、百分位数的概念概念：是位于依据一定顺序排列的一组数据中某一百分位置的数值，用P表示。如第P70是从小到大排列的一组数据中，有70%的数值小于此数值，有30%的数值大于此数值。中数就是第？百分位数百分位数的计算方法 Pp表示百分位数 p表示与百分位相对应的比数 n表示总频数 Lp表示百分位数所在组的下限 n1表示小于百分位数所在组下限的频数总和 Fp表示百分位数所在组的频数 i表示组距三、中数的优缺点 ? 优：计算简单、容易理解、很少受极端值的影响。 ? 缺：不适合代数计算 ? 在一般情况下，中数不被普遍应用。正态分布时：均数＝中位数＝众数正偏态分布时：均数>中位数>众数负偏态分布时：均数<中位数<众数第四节其他集中量数一、加权平均数：是不同比重数据（或平均数）的平均数。用表示。公式： ? 二、几何平均数:常用来求增长率 ? 三、调和平均数:常用来求速度,如阅读速度,识字速度等. 作业6：求以下资料的第P80，P60，P30百分位数组限频数累积频数 140- 1 1 145- 3 4 150- 2 6 155- 4 10 160- 4 14 165- 6 20 170- 10 30 175- 8 38 180- 5 43 185- 4 47 190- 2 49 195- 1 50 和 50 (1) p=0.8,n=50,L80=180,n1=38,f80=5,i=5 P80=180+(0.8*50-38)*5/5=182 (2)p=0.6,n=50,L60=170,n1=20,f60=10,i=5 P60=170+(0.6*50-20)*5/10=175 (3)p=0.3,n=50,L30=165,n1=14,f30=6,i=5 P30=165+(0.3*50-14)*5/6=165.83 第一节全距四分位差百分位差 ? 1.全距：一组数据中最大值与最小值之差。用R（ Range ）表示。请分别计算右边三组数据的全距和平均数。 ? 优：简单、方便 ? 缺：易受两极端值的影响。 2.四分位差： ? 依据一定顺序排列的一组数据中间50%个频数距离的一半；依据一定顺序排列的一组数据除去两端四分之一数据后再取其一半的距离。 ? 公式Q=（Q3-Q1）/2 Q1是从小到大排列的数据1/4处的数值，称为第1四分位数， Q3是位于3/4处的数值，称为第3四分位数。思考：中数处于什么位置？ 3.百分位差 ? 是指两个百分位数之差。 ? 以全距来表示一组数据的离散程度时，容易受极端值的影响。因此，可以取消分布两端10%的数据，即用P10和P90之间的距离作为差异量数，即百分位差。在实践中已较少使用。第二节方差和标准差 ? 1.方差含义：是指离差平方的算术平均数。也称变异数、均方。作为样本统计量，用符号S2表示，作为总体参数，用符号2表示。 ? 2.方差公式 ? ? 3.标准差公式 ? 方差和标准差意义：全面反映了一组观察值的变异程度。标准差越大，表明数据离散程度越大，数据分布范围越广，数据参差不齐。 ? 思考：标准差是大好还是小好？ 4.标准差和方差的应用 ? 计算简单，可以进行代数运算。 ? 用样本数据来推断总体差异时，方差和标准差是最好的估计量。 ? 应用范围最为广泛。补充资料 5.无偏方差和无偏标准差 ? 无偏方差公式： ? 无偏标准差公式： ? 区别：无偏方差是总体方差的无偏估计。第三节差异系数（变动系数） ? 差异系数是标准差与其算术平均数的百分比（没有单位） ? 公式 ? 意义：差异系数越大，表明离散度越大。 ? 用途：主要比较不同单位数据的差异程度。 ? 1.已知某小学一年级学生的平均体重为25千克，体重的标准差为3.7千克，平均身高110厘米，标准差为6.2厘米，求体重和身高的离散程度哪个大？ CV1=3.7/25*100%=14.8% CV2=6.2/110*100%=5.64% 结论：体重的分散程度比身高的分散程度大。第四节偏态量和峰态量 ? 偏态量和峰度量是描述数据分布特征的统计量，又称偏度和峰度。 1.偏度：是描述图形离开对称的方向和程度的指标。 ? 偏度SK=0 图形对称 ? 偏度SK>0 图形呈正偏态 ? 偏度SK<0 图形呈负偏态 2.峰度（Ku) ? 峰度是描述图形中次数最多之处的山峰高耸的程度 ? Ku=0 图形呈标准的常态状 ? Ku>0 图形的山峰显得尖 ? Ku<0 图形的山峰显得矮平第五节标准分数 ? 1.标准分数，又称Z分数，是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。 ? 2.计算公式： ? Z的数值有正负，表示正向（或负向）离开平均多少个标准差单位 ? Z=0 表明其原始分数为平均数 ? Z>0 表明其原始分数高于平均数 ? Z<0 表明其原始分数低于平均数 3.标准分数的优点及应用优点：（1）可比性（2）可加性应用：（1）可以比较不同观测值在各自数据分布中相对位置的高低例1.某年高考理科数学全国平均成绩65分，标准差是12.5分，考生A，B，C三人的数学原始分数分别是50，65，85分，求他们的标准分数是多少？ Z1=（50-65）/12.5=-1.2 Z2=（65-65）/12.5=0 Z3= （85-65）/12.5=1.6 结论：C的分数高于平均分。当求出分布中某一原始分数的Z分数，就可以通过查正态分布表得到此原始分数的百分等级，从而知道在它之下的分数个数占全部分数个数的百分之几。 4.标准分数的转换 ? 由于Z分数会出现小数、负数等缺点，我们常常将其转换成正态标准分数。 ? 韦克斯勒的韦式成人智力量表 IQ=15Z+100 5.原始分数与标准分区别以下是两位老师对5位同学的作文评分及名次（原始分数）学生老师甲评分老师甲顺序老师乙评分老师乙顺序甲乙老师平均分成绩顺序 A 85 1 50 5 67.5 5 B 80 2 60 4 70 4 C 75 3 70 3 72.5 3 D 70 4 80 2 75 2 E 65 5 90 1 77.5 1 总分 375 350 362.5 平均分 75 70 72.5

                    本文档为【统计学的发展】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

统计学的发展

你可能还喜欢