首页 第三章 常用概率分布之正态分布

第三章 常用概率分布之正态分布

举报
开通vip

第三章 常用概率分布之正态分布第三章常用概率分布第一节事件与概率第二节概率分布第三节二项式分布第四节正态分布第五节样本平均数抽样分布与标准误第六节t分布,x2分布和F分布第三章常用概率分布第一节事件与概率第二节概率分布第三节二项式分布第四节正态分布第五节样本平均数抽样分布与标准误第六节t分布,x2分布和F分布第四节正态分布一、正态分布曲线的特性二、标准正态分布及其累积函数(曲线区间面积或概率)三、实际次数资料的理论配合四、二项分布的正态近似正态分布(Normaldistribution)是应用最广泛的一种连续型分布.正态分布在十九世纪前叶由高斯...

第三章 常用概率分布之正态分布
第三章常用概率分布第一节事件与概率第二节概率分布第三节二项式分布第四节正态分布第五节样本平均数抽样分布与MATCH_ word word文档格式规范word作业纸小票打印word模板word简历模板免费word简历 _1716710497867_0误第六节t分布,x2分布和F分布第三章常用概率分布第一节事件与概率第二节概率分布第三节二项式分布第四节正态分布第五节样本平均数抽样分布与标准误第六节t分布,x2分布和F分布第四节正态分布一、正态分布曲线的特性二、标准正态分布及其累积函数(曲线区间面积或概率)三、实际次数 资料 新概念英语资料下载李居明饿命改运学pdf成本会计期末资料社会工作导论资料工程结算所需资料清单 的理论配合四、二项分布的正态近似正态分布(Normaldistribution)是应用最广泛的一种连续型分布.正态分布在十九世纪前叶由高斯加以推广,所以通常称为高斯分布(Gaussiandistribution).德莫佛deMoivre德莫佛最早发现了二项概率的一个近似公式,这一公式被认为是正态分布的首次露面.高斯Gauss高尔顿钉板试验球的数目足够大,它们在底板将堆成近似于正态的密度函数图形这是英国生物统计学家高尔顿设计的用来研究随机现象的模型。研究正态分布的意义:客观世界的许多现象的数据是服从正态分布规律的。在适当条件下,正态分布可以用来作二项分布及其它间断性变数或连续性变数分布的近似分布。虽然某些总体不作正态分布,但从总体中随机抽出的样本平均数及其它一些统计数的分布,在样本容量适当大时仍然趋于正态分布。正态分布正态分布的定义若随机变量X的概率分布密度函数为记作f(x)所确定的曲线叫作正态分布密度曲线.其中和都是常数,任意,>0,则称X服从参数为和的正态分布.正态分布的图形特点(1)正态分布的密度曲线是一条关于对称的钟形曲线.特点是“两头小,中间大,左右对称”.(2)故f(x)以μ为对称轴,并在x=μ处达到最大值:令x=μ+c,x=μ-c(c>0),分别代入f(x),可得f(μ+c)=f(μ-c)且f(μ+c)≤f(μ),f(μ-c)≤f(μ)能不能根据密度函数的表达式,得出正态分布的图形特点呢?(3)容易看到,f(x)≥0(非负函数)即整个概率密度曲线都在x轴的上方;这说明曲线f(x)向左右伸展时,越来越贴近x轴(不相交)。即f(x)以x轴为渐近线。当x→∞时,f(x)→0,(4)分布密度曲线在x=μ±σ处各有一个拐点(求导)-∞+∞生长始盛期盛末期决定了图形的中心位置,决定了图形中峰的变异(陡峭)程度.(5)正态分布的图形特点(6)分布密度曲线与横轴构成的曲边三角形的面积为1小结:正态分布曲线的特点:服从正态分布的变量的频数分布由μ、σ完全决定。集中性:正态曲线的高峰位于正中央,即均数所在的位置,算术平均数、中数、众数三位合一。对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。正态分布曲线是以平均数和标准差的不同而表现为一系列曲线;正态分布曲线在离开平均数一个标准差处有拐点,且曲线是以x轴为渐进线;正态分布曲线与x轴间的面积为1,任何两个x定值间的面积或概率由平均数和标准差确定。正态分布请同学们想一想,实际生活中哪些随机变量具有正态分布的特点?用上海99年年降雨量的数据画出了频率直方图。从直方图,我们可以初步看出,年降雨量近似服从正态分布。用某大学男大学生的身高的数据画出的频率直方图。红线是拟合的正态密度曲线可见,某大学男大学生的身高应服从正态分布。学生的考试成绩高低不等,但中等成绩的占大多数,高分和不及格的一般只是少数,并且较高分和较低分的人数大致相近,这从一个方面反映了服从正态分布的随机变量的特点。除了年降雨量、身高、男女出生率比例、成绩分布之外,在正常条件下各种产品的质量指标,如零件的尺寸;纤维的强度和张力;农作物的产量,小麦的穗长、株高;测量误差,射击目标的水平或垂直偏差;信号噪声等等,都服从或近似服从正态分布.服从正态分布的随机变量X的概率密度是X的分布函数F(X)是怎样的呢?设X~,X的分布函数是F(X)=P{X≤Xi}又称为累积函数,含义是X值小于等于某个指定值的概率F(X)本质上是概率,可用曲线下区间的面积来表示(几何意义),或者说,用其定积分的值表示( 数学 数学高考答题卡模板高考数学答题卡模板三年级数学混合运算测试卷数学作业设计案例新人教版八年级上数学教学计划 )计算曲线下从-∞到x的面积,其公式如下:计算正态分布曲线区间{a≤x≤b}面积或概率的方法现如给予变数任何一定值,例如a,那么,可以计算y≤a的概率为FN(a),即如果a与b(a 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 .,则~N(0,1)设定理1U书末附表1有标准正态分布函数数值表,有了它,可以解决一般正态分布的概率计算查表.正态分布表表中给的是x>0时,Φ(x)的值.当-x<0时若~N(0,1)若X~N(0,1),UU[例]假定y是一随机变数具有正态分布,平均数=30,标准差=5,试计算小于26,小于40的概率,介乎26和40区间的概率以及大于40的概率。所有正态分布都可以转换为标准化正态分布方程式首先计算:先将y转换为u值然后查表计算概率。同理可得:FN(40)=0.9773所以:P(26<y≤40)=FN(40)-FN(26)=0.9773-0.2119=0.7654P(y>40)=1-P(y≤40)=1-0.9773=0.0227查附表2,当u=-0.8时,FN(26)=0.2119,说明这一分布从-∞到26范围内的变量数占全部变量数的21.19%,或者说,y≤26概率为0.2119.概率计算图示[例]假定棉花纤维长度的系列观测值是一组随机变数且具有正态分布,平均数=29.83mm,标准差=1.045,试计算需要50株纤维长度x≥32mm的棉花,需要至少种植多少株棉花?F(X≥32mm)=1-F(X<32mm)U=(32-29.83)/1.045=2.081-F(u=2.08)=0.018850/0.0188=2660株对于服从正态分布N(μ,σ2)的随机变量x,以下几个概率[即随机变量x在区间(μ–kσ,μ+kσ)内取值的概率,k=1,2,3,1.96,2.58]应用较多P(μ–σ≤x<μ+σ)=0.6826P(μ–2σ≤x<μ+2σ)=0.9545P(μ–3σ≤x<μ+3σ)=0.9973P(μ–1.96σ≤x<μ+1.96σ)=0.95P(μ–2.58σ≤x<μ+2.58σ)=0.99X的取值几乎全部集中在[μ–3σ,μ+3σ]区间内,超出这个范围的可能性不到0.3%,这在统计学上称作“3σ准则”对于服从正态分布N(μ,σ2)的随机变量x,以下几个概率[即随机变量x在区间(μ–kσ,μ+kσ)内取值的概率,k=1,2,3,1.96,2.58]应用较多P(μ–σ≤x<μ+σ)=0.6826P(μ–2σ≤x<μ+2σ)=0.9545P(μ–3σ≤x<μ+3σ)=0.9973P(μ–1.96σ≤x<μ+1.96σ)=0.95P(μ–2.58σ≤x<μ+2.58σ)=0.99图4.13离均差的绝对值≤1,2和3的概率值随机变量x在区间(μ–kσ,μ+kσ)外取值的概率P(x<μ–kσ)+P(x>μ+kσ)为两尾概率,记为αP(x<μ–kσ)+P(x>μ+kσ)=αP(x<μ–kσ)=P(x>μ+kσ)=α/2两尾分位数Uα 两尾之和0.025+0.025=0.05α=0.05两尾分位数Uα=1.96(临界值)表示标准正态离差U=1.96时所对应的两尾概率α为0.05 两尾之和0.005+0.005=0.01α=0.01Uα=2.58(临界值)表示标准正态离差U=2.58时所对应的两尾概率α为0.01实际次数资料的理论配合正态分布是实际次数分布的一种理论或总体模型,而实际的次数分布是样本的分布由于样本容量有限和抽样误差,样本的分布总是有参差分布密度曲线与横轴构成的曲边三角形的面积为1次数分布表的直方图方柱的面积S=nin:次数之和i:组距f’(x)=nif(x),即f’(x)扩大ni倍配合的好不好,有一个拟合度(fitness)来衡量每一个观察的点都在曲线上面,就是最好的拟合,但是实际不可能,这就表明实际观察结果和用正态分布曲线拟合的不完全一致,后面有专门的假设测验来检验配出来的曲线是否有统计意义二项分布的正态近似当n很大,p接近0或1时,二项分布近似泊松分布;如果n很大,而p不接近于0或1,那么可以证明,二项分布近似于正态分布.有关二项分布近似于正态分布的一个定理,称为棣莫佛-拉普拉斯定理.中心极限定理的一个最重要的特殊情况.正态分布可以用来近似的计算二项分布利用正态分布近似计算二项分布的必要性n=20,x≥2P(x≥2)=?P(x≥2)=1-p(x=0)-p(x=1)n=20,x≥10P(x≥10)=?P(x≥10)=p(x=10)+p(x=11)+....+p(x=20)利用正态分布近似计算二项分布的可能性P=0.1但n值不同时的二项分布参数:n,pp值较小且n值不大时,分布是偏倚的,随着n的增大,分布逐渐对称(1)当p=q=0.5时,二项分布近似于正态分布的对称分布(2)p≠q时,n足够大到使np>5(在p≤0.5时)或nq>5(在p>0.5时),并且p和q都不过大或者过小(比如:>0.1,<0.9),则二项分布趋于对称,并且近似于正态分布。在具备上述条件时,可用正态近似计算二项分布利用正态分布近似计算二项分布的方法正态分布是连续性分布,二项分布是间断性分布,表示概率的方式不一样比如:x=6时,对应的正态曲线应为一个区间,或者030正态总体的抽样分布(一)样本平均数的分布从正态总体抽取的样本平均数的分布一般为N(,)。图中给出样本容量n=1,4与9时的分布,从图中可以看出随着样本容量的增加,分布的集中程度增加了,说明标准差减少了。不同样本容量的抽样分布由中心极限定理知,只要样本容量适当大,不论总体分布形状如何,其的分布都可看作为正态分布,且具平均数和方差。在实际应用上,如n>30就可以应用这一定理。平均数的标准化分布是将上述平均数转换为u变数。[例]在江苏沛县调查336个m2小地老虎虫危害情况的结果,=4.73头,=2.63,试问样本容量n=30时,由于随机抽样得到样本平均数等于或小于4.37的概率为多少?查附表2,P(u≤-0.75)=0.2266,即概率为22.66%(属一尾概率)。例题:已知一个正态总体的μ=3,σ=0.707,试求,若样本容量n=4,P{<2.625}=?==0.707/√4=0.3535U=(2.625-3)/0.3535=-1.06P{<20625}=F(U)=F(-1.06)=0.14460.1446n=4时,<2.625的平均数共有1+8+28=37个37/256=0.1445例:田间106株”岱字棉”纤维长度呈正态分布,设μ=29.83mm,σ=1.045mm,试求:(1)若n=4株抽取随机样本时,与μ相差±0.5mm的概率。=1.045/√4=0.5225U1=-0.5/0.5225=-0.96U2=0.5/0.5225=0.96F(-0.96)=0.1685由于正态分布左右对称,p{u<-0.96}=p{u>0.96}所以P{|-u|>0.5}=P{u<-0.96}+p{u>0.96}=0.1685+0.1685=0.3370(属一尾概率)。例:田间106株”岱字棉”纤维长度呈正态分布,设μ=29.83mm,σ=1.045mm,试求:(2)若n=25株,则P{|-μ|>0.5}=?=1.045/√25=0.2090U1=-0.5/0.2090=-2.39F(-2.39)=0.0084P{|-μ|>0.5}=2x0.0084=0.0168n=4,样本平均数与μ的相差超过±0.5mm的概率为0.3370;n=25,样本平均数与μ的相差超过±0.5mm的概率只有0.0168说明,n增大,平均数的离散程度减小,准确性提高三两个独立样本平均数差数的分布假定有两个正态总体各具有平均数和标准差为,和,,从第一个总体随机抽取n1个观察值,同时独立地从第二个总体随时机抽取n2个观察值。这样计算出样本平均数和标准差,s1和,s2。从统计理论可以推导出其样本平均数的差数()的抽样分布,具有以下特性:(1)如果两个总体各作正态分布,则其样本平均数差数()准确地遵循正态分布律,无论样本容量大或小,都有N(,)。(2)两个样本平均数差数分布的平均数必等于两个总体平均数的差数,即(3)两个独立的样本平均数差数分布的方差等于两个总体的样本平均数的方差总和,即这个分布也可标准化,获得u值。其差数标准差为:小结:若两个样本抽自于同一正态总体,则其平均数差数的抽样分布不论容量大小亦作正态分布具:若两个样本抽自于同一总体,但并非正态总体,则其平均数差数的抽样分布按中心极限定理在n1和n2相当大时(大于30)才逐渐接近于正态分布。若两个样本抽自于两个非正态总体,当n1和n2相当大、而与相差不太远时,也可近似地应用正态接近方法估计平均数差数出现的概率,当然这种估计的可靠性得依两总体偏离正态的程度和相差大小而转移。(二)样本总和数的抽样及其分布参数样本总和数(用代表)的抽样分布参数与母总体间存在如下关系:(1)该抽样分布的平均数与母总体的平均数间的关系为:(4·19)(2)该抽样分布的方差与母总体方差间存在如下关系:(4·20)二项总体的抽样分布(一)二项总体的分布参数其中p为二项总体中要研究的属性事件发生的概率,q=1-p。标准差:方差:平均数:样本平均数(成数)的抽样分布从二项总体进行抽样得到样本,样本平均数抽样分布的参数为:平均数:方差:标准误:同样n是样本容量。(三)样本总和数(次数)的抽样分布从二项总体进行抽样得到样本,样本总和数的抽样分布参数为:平均数:方差:标准误:[例]棉田危害棉株分为受害株与未受害株。假定调查2000株作为一个总体,受害株为704株。这是一个二项总体,于是计算出受害率p=35.2%=0.352,==0.4776或47.76%。现从这一总体抽样,以株为单位,用简单随机抽样方法,调查200株棉株,获得74株受害,那么,观察受害率(就是成数,或者说是样本平均数)=37.0%,试问样本平均数与总体真值的差数的概率为多少?总体真值p=0.352,差数=()=(0.370-0.352)=0.018。标准差===0.034或3.4%。由于二项分布在np及nq大于5时,趋近于正态分布,本例样本较大可看为正态分布,采用正态离差u查出概率。于是=0.53。如果以次数资料(或称为“样本总和数资料”)表示也可得到同样结果。总体调查2000株中受害株有704株,调查200株的理论次数应为np=200×0.352=70.4株。现观察受害株为74株(总和数),差数=(-np)=74-70.4=3.6株,=3.6/6.754=0.53,与上相同,获得这种差数的概率为0.59。查附表3,当u=0.53,概率值为0.59,即获得这种||≥0.018的概率(两尾概率)为0.59,这就说明样本估计的受害率为37.0%有代表性(可以近似代表总体的受害率)。
本文档为【第三章 常用概率分布之正态分布】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
旋律
几年的财务工作经验,现认财务主管一职!精通各种财务管理软件
格式:ppt
大小:2MB
软件:PowerPoint
页数:0
分类:
上传时间:2018-07-02
浏览量:19