null第5章 概率基础第5章 概率基础教学内容
正态分布
t-分布
F分布
统计推断的过程统计推断的过程null4-*设X是R.V., x 是一实数. 记
F(x)=P(X
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
正态分布,相应的随机变量称为标准正态随机变量,用Z表示,即Z~N(0,1),相应的分布密度函数为连续型随机变量的概率分布null=0.6=1=2null连续型随机变量的概率分布标准正态分布:如果正态分布的密度函数中,=0,=1,则这样的正态分布称为标准正态分布。
标准正态随机变量在区间[-Z,Z]取值的概率F(Z)可通过查标准正态分布概率表获得。null连续型随机变量的概率分布例:设随机变量Z服从标准正态分布,求以下概率的大小:
(1)p(-11)null4-*正态分布的标准化变换:
若随机变量X服从正态分布N (μ,σ2),则随机变量 Z = 服从标准正态分布,即Z~N(0,1)。null4-*例:某大学英语考试成绩服从正态分布,已知平均成绩为70分,标准差为10分。求该大学英语成绩在60—75分的概率。null例:假定学生某门学科的考试成绩服从均值为60分,标准差为12分的正态分布,问某一学生的成绩在60分到75分之间的概率应为多少?
解:
null补:其他常用连续型随机变量的概率分布t-分布:设X服从标准正态分布,Y服从自由度为n的2分布,且它们相互独立,则随机变量T=X/Y/n所服从的分布为自由度为n的t-分布。
当n30时, t-分布与标准正态分布的差别非常小,可用标准正态分布代替。
F-分布:设X和Y是相互独立的2分布,自由度分别是f1和f2,则称随机变量F=(X/Y).(f2/f1)所服从的分布为F-分布,称为它的自由度。第6章 参数估计第6章 参数估计教学内容
6.1 抽样与抽样分布
6.2 参数估计的基本方法
6.3 总体均值的区间估计
6.4 总体成数的区间估计
6.5 样本容量的确定学习目标学习目标
掌握样本平均数和样本成数的抽样分布
理解总体参数点估计的基本方法及其优良标准;
掌握总体均值和成数指标的区间估计方法;
会做题目6.1 抽样与抽样分布6.1 抽样与抽样分布6.1.1 什么是抽样推断
基本概念
总体与样本(见第一章)
样本量与样本个数
总体参数与样本统计量
重复抽样与不重复抽样
这些概念是统计学特有的,体现了统计学的基本思想与方法。
(一)总体和样本(参见第1章)4-*(一)总体和样本(参见第1章)1.总体:又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用 N 表示。
2.样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数用 n 表示。
3.总体是唯一的、确定的,而样本是不确定的、可变的、随机的。 (二)样本容量与样本个数4-*(二)样本容量与样本个数样本容量:一个样本中所包含的单位数,用n表示。
样本个数:又称样本可能数目,指从一个总体中所可能抽取的样本的个数。对于有限总体,样本个数可以计算出来。样本个数的多少与抽样方法有关。(这个概念只是对有限总体有意义,对无限总体没有意义!)(三)总体参数和样本统计量*(三)总体参数和样本统计量总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。
样本统计量:根据样本分布计算的指标。是随机变量。
平均数
标准差、方差
成数参数
、2
P统计量
s、 s2
p总体样本(四)重复抽样与不重复抽样*(四)重复抽样与不重复抽样重置抽样与不重置抽样
例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2
重复抽样:样本总个数=
不重复抽样:
不考虑顺序:样本总个数
注:不重复抽样的样本量受总体大小限制,即n不能超过N,最多等于N;但重复抽样的样本量不受总体大小的影响。6.1.3 抽样分布*6.1.3 抽样分布抽样分布:主要求出样本平均数的期望与方差
包括以下内容
样本平均数的分布
样本成数的分布null抽样分布 设从总体中抽出的样本为X1,X2,…,Xn,由于是重复抽样,每个Xi,(i=1,2,…,n)都是从总体中随机抽出的,都是与总体同分布的随机变量,并且是相互独立的。
我们设总体的平均数为,方差为2,则样本平均数的期望值与方差分别是:样本平均数的抽样分布(一)样本平均数的分布(P108-109)*(一)样本平均数的分布(P108-109)某班组5个工人的日工资为34、38、42、46、50元。
= 42
2 = 32
现用重置抽样的方法从5人中随机抽2个构成样本。共有52=25个样本。如右图。(一)样本平均数的分布*验证了以下两个结论:
抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用 表示。(一)样本平均数的分布(一)样本平均数的分布*(一)样本平均数的分布由概率论知,如果总体是正态分布的,则样本平均数的抽样分布是如下正态分布
这是一个非常重要的结论,有广泛的应用。(二)样本成数的分布(P111-112)*(二)样本成数的分布(P111-112)总体成数P是指具有某种特征的单位在总体中的比重。成数是一个特殊平均数,设总体单位总数目是N,总体中有该特征的单位数是N1。设x是0、1变量(总体单位有该特征,则x取1,否则取0),则有:
现从总体中抽出n个单位,如果其中有相应特征的单位数是n1,则样本成数是:
p也是一个随机变量,利用样本平均数的分布性质结论,即有:三、不重置抽样条件下样本均值和成数的抽样分布*三、不重置抽样条件下样本均值和成数的抽样分布样本均值的分布性质:
样本成数的分布性质抽样分布总结*抽样分布总结(三)抽样分布定理(三)抽样分布定理1.正态分布再生定理 113
总体是正态分布,抽取容量n的样本,样本平均数也服从正态分布。
样本平均数是更加集中的分布在总体平均数的周围。
2.中心极限定理 114
大样本的平均数近似服从正态分布。
6.2 参数估计6.2 参数估计6.2.1 估计量与估计值
用样本统计量估计总体参数,用来估计总体参数的统计量叫做估计量,估计量的取值称为估计值。参数估计的方法参数估计的方法null二、点估计 点估计的定义
点估计就是根据总体参数与样本统计量之间的内在联系,直接以样本统计量作为相应总体参数的估计量。在统计中经常使用的点估计量有: null【例6-1】对某企业的产品进行抽样检验,设抽出100件产品,其中不合格产品5件,试估计该企业产品的合格率是多少?
我们可以通过样本的合格率来估计企业产品的合格率。样本合格率p=95/100=95%,我们估计该企业产品的合格率是95%。 二、点估计null所谓区间估计,就是估计总体参数的区间范围,并要求给出区间估计成立的概率值。设 和 是两个统计量( < ),分别作为总体参数区间估计的下限与上限,则要求:
P( )=1-α
式中α(0<α<1)是区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%;1-α称为置信度。(二)区间估计置信水平(置信度) 1、总体未知参数落在区间内的概率
2、表示为 (1 -
为显著性水平,是总体参数未在区间内的概率
3、常用的置信水平值有 99%, 95%, 90%
相应的 为0.01,0.05,0.10置信水平(置信度) 区间与置信水平 区间与置信水平 均值的抽样分布(1 - ) % 区间包含了
% 的区间未包含(二)区间估计(二)区间估计参数估计应满足以下两个要求:一是估计的精确度要求,二是可靠性要求。
所谓精确度就是估计误差的最大范围,即误差的最大值,可通过极限误差来反映;
所谓可靠性是指估计结果正确的概率大小。
置信区间越小,精确性越高,但是可靠性下降;
置信区间越大,可靠性越大,但是精确性降低。
因此,精确性和可靠性是一对矛盾。null 无偏性
用表示总体的待估计参数, 是估计的样本统计量,我们说 是的无偏估计,指的是满足:
6.2.3 评价估计量的标准null 无偏性
无偏性要求用来估计总体参数的样本统计量,其分布是以总体参数真值为中心的。
在一次具体的抽样估计中,估计量或者大于总体参数,或者小于总体参数;
但是,在进行重复抽样估计的过程中,所有估计量的平均数应该等于待估的总体参数。这说明,无偏估计要求估计量没有系统偏差。估计量的优良性准则——(无偏性)估计量的优良性准则——(无偏性)无偏性:估计量的数学期望等于被估计的总体参数null这就是为什么样本方差用n-1的原因!null 一致性
一致性是指随着样本容量不断增大,样本统计量接近总体参数的可能性就越来越大,或者,对于任意给定的偏差控制水平,两者间偏差高于此控制水平的可能性越来越小,接近于0。null 一致性
用公式表示就是:
公式中,ε为一任意小的数。上式说明,当n充分大时, 与之间的偏差,可以有很大的把握被控制在任意给定的范围之内。当n趋于无穷大时,估计量 依概率收敛于 。估计量的优良性准则——(一致性)估计量的优良性准则——(一致性)一致性:随着样本容量的增大,估计量越来
越接近被估计的总体参数null 有效性
和 都是总体参数的无偏估计量,如果,
则说明估计量 比 更有效。null 有效性
设总体的方差是 ,我们有:
显然,样本平均数的方差比样本中某个单位的标志值的方差要小,只是其方差的1/n,所以作为估计量,样本平均数更加有效。null6.3.1区间估计基本原理6.3总体均值的区间估计null6.3.2 正态分布且总体方差已知;或非正态分布方差未知,且大样本平均数的区间估计 平均数的区间估计 对总体平均数区间估计时,使用下面的式子
(式中Δ是极限误差)
有两种模式:
1、根据置信度1-α,求出极限误差Δ,并指出总体平均数的估计区间。
2、给定极限误差,求置信度(略)。均值区间估计—第1种模式(求置信区间)
当σ已知时,根据相关的抽样分布定理, 服从标准正态分布N(0,1)。查正态分布概率表, 可得 (一般记为 ),则 ,根据重复抽样与不重复抽样的 求法的不同,进一步可得总体平均数的估计区间:
重复抽样时,区间的上下限为:
不重复抽样时,区间的上下限为:均值区间估计—第1种模式(求置信区间)nullnull【例6-2】某地区的电视台委托调查公司估计地区内居民平均每日的看电视时间。调查公司随机抽取了100名居民进行调查,样本数据显示平均每人每天看电视时间是4个小时。如果已知总体的标准差σ=1.5小时。试求:
(1)该地区内居民每天看电视的平均时间的置信区间(置信度是95%);
nullnull(2)总体分布未知且总体方差未知,大样本条件下,由中心极限定理知,近似服从正态分布,此处用样本方差s代替总体方差。
P120,例6.4
null总体方差未知(2未知),小样本 :
当总体服从正态分布但方差未知时,可用样本的标准差s代替总体标准差。这时统计量是:
t服从的分布不是标准正态分布,而是自由度为n-1的t-分布(当n很大时,近似正态分布)。因此,总体均值的区间估计是:null总体方差未知(2未知) :
重复抽样
不重复抽样 总体均值区间估计总结4-*总体均值区间估计总结 如果是正态总体null4-* 如果不是正态总体,或分布未知
此时不考虑小样本情况因此,大样本情况下,直接用标准正态分布求置信区间即可。null成数指标是一个特殊的平均数。所以,类似于总体平均数的区间估计,总体成数的区间估计是:
式中的成数抽样平均误差在重复抽样条件下是:
在不重复抽样的条件下是:
在实践中,由于总体成数常常未知,这时,抽样平均误差公式中的总体成数用样本成数代替。6.4 总体成数的区间估计null【例6-3】某工厂要估计一批总数5000件的产品的废品率,于是随机抽出400件产品进行检测,发现有32件废品。试给出该批产品的废品率的区间估计(置信度是90%)。 总体平均数的区间估计 总体平均数的区间估计第一,样本抽取后,用简单算术平均或加权平均的方法计算样本平均数 。
第二,搜集总体数量标志方差的经验数据或计算样本数量标志方差s2。
第三,计算抽样平均数的平均误差:第四,根据概率F(Z)确定Z,计算平均数的极限误差 。
第五,总体平均数 的置信区间 。区间估计小结(重置抽样)(不重置抽样) 总体成数的区间估计第一,样本抽取后,计算样本成数 。
第二,用样本是非标志方差p(1-p)或经验数据代替总体是非标志方差P(1-P)。
第三,计算抽样成数的平均误差:第四,根据概率F(Z)确定Z,计算平均数的极限误差:
第五,总体平均数P的置信区间 。 总体成数的区间估计(重置抽样)(不重置抽样)练习练习某地有八家银行,从它们所有的全体职工中随机抽取600人进行调查,得知其中的486人在银行里有个人储蓄存款,存款金额平均每人3400元,标准差500元,试以95.45%的可靠性推断:(1-α=95.45%,则z=2)
1)全体职工中有储蓄存款者所占比率的区间范围
2)平均每人存款金额的区间范围null(1)已知:n=600,p=81%,又
1-α=95.45%,则z=2所以
故全体职工中有储蓄存款者所占比率的区间范围为81%±0.1026%
(2)平均每人存款金额的区间范围为null6.5 样本容量的确定在前面我们已经知道,极限误差、概率度与抽样平均误差三者间的数量关系是: 。当抽样平均误差保持不变时,极限误差与概率度两者间关系是:
Δ增大,z也增大了,Δ减小,z也减小了。null样本容量的确定因此,抽样估计的精度与可靠性之间存在矛盾:
要提高精度(Δ减小),需以牺牲概率度(z减小)为代价;
要提高概率度(z增大),又要以牺牲估计精度(Δ增大)为代价。在 不变的情况下,这对矛盾是不可调和的;但是,降低抽样平均误差后,就可以同时提高估计的精度与概率度。null样本容量的确定例如:通过增加样本容量n来达到降低抽样平均误差目标。
这时应该考虑,样本容量n究竟取多大合适?这就是样本容量的确定问题。null6.5.1 估计总体均值时样本容量的确定总体方差已知,重复抽样(重点)
这时有:
上式两边平方整理后可得:
这就是在给定极限误差、概率度要求下,至少应抽取的样本容量。null估计总体均值时样本容量的确定总体方差已知,不重复抽样
这时有:
上式两边平方整理后可得:
null6.5.2 估计总体成数时样本容量的确定重复抽样(重点)
不重复抽样
确定样本容量4-*确定样本容量在设计抽样时,先确定允许的误差范围和必要的概率保证程度,然后根据历史资料或试点资料确定总体的标准差,最后来确定样本容量。null6.5.3 应注意的问题 计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:
一是用历史资料已有的方差与成数代替;
二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;
三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。null三、应注意的问题 如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。
上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:n=56.03,那么,样本容量取57,而不是56。null【例6-4】对企业产品合格率进行抽样调查,根据历史上进行的二次调查资料,合格率分别是15%和13%,这次调查要求误差不超过5%,概率保证程度为95%,问至少要抽出多少产品作为样本?
解:已知α=5%, =0.05, =1.96。按历史上的两次调查资料,分别计算成数方差为:0.15×(1-0.15)=0.1275,和0.13×(1-0.13)=0.1131。取方差最大者,因此选p=15%。由于企业产品数量一般都较大,抽出样本在总体中所占的比重很小,无论是重复抽样还是不重复抽样,结果相差不大,可按重复抽样方式计算,所以至少应抽取的样本容量是:null【例6-5】对某型号电池进行电流强度检验,根据以往正常生产的经验数据,已知电流强度的标准差σ=0.4安培,合格率P=90%。采用随机重复抽样方式,需要在99.73%的概率保证下,抽样平均电流的误差范围不超过0.08安培,抽样合格率误差范围不超过5%,试求必要的抽样单位数。
解:已知,1-α=99.73%, =3,按抽样平均数与成数计算的样本容量分别是:(个)(个)取以上计算结果中较大者,即n=324,本章小结本章小结点估计及评价标准:无偏性,有效性,一致性
区间估计(重点):
1.总体均值区间估计:方差已知,方差未知
2.总体成数区间估计
样本容量确定
作业:P127 8, 11, 17