首页 统计假设检验

统计假设检验

举报
开通vip

统计假设检验一、大样本平均数的假设检验--u检验1、u检验的基本原理将计算所得u值与设定显著性水平下的否定无效假设的临界值uα比较a.根据正态分布的理论分布,计算抽样平均数总体的标准差2、u检验的适用条件-抽样分布为正态分布(1)基础总体为正态分布,无论样本容量大小,其抽样分布肯定为正态分布(2)未知基础总体,样本容量很大时,根据中心极限定理,其抽样分布也可以看作正态分布因为用的是大样本的均方,所以此样本的均方对总体方差的估计是有效的。直接用大样本的均方代替总体方差,这时3、一个样本平均数的检验例:在江苏沛县调查333m2小地...

统计假设检验
一、大样本平均数的假设检验--u检验1、u检验的基本原理将计算所得u值与设定显著性水平下的否定无效假设的临界值uα比较a.根据正态分布的理论分布,计算抽样平均数总体的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差2、u检验的适用条件-抽样分布为正态分布(1)基础总体为正态分布,无论样本容量大小,其抽样分布肯定为正态分布(2)未知基础总体,样本容量很大时,根据中心极限定理,其抽样分布也可以看作正态分布因为用的是大样本的均方,所以此样本的均方对总体方差的估计是有效的。直接用大样本的均方代替总体方差,这时3、一个样本平均数的检验例:在江苏沛县调查333m2小地老虎虫害情况的结果,μ=4.73头,=2.63头。用某种抽样方法随机抽得一个样本(n=30),计算得=4.37头。问这个样本对该已知总体有无代 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 性?解:注意:此处是对总体参数做假设a.提出无效假设(一尾or两尾?)b.确定一个否定H0的概率a=0.05c.检验概率计算(首先判断要用什么分布)Q总体标准差已知,且抽样为大样本(n=30)\可以用u检验d.做出推断结论并加以解释根据以上计算可知样本在假定总体中出现的概率P>0.05,即差异不显著,所以,应该接受H0否定HA。由此,我们应该认为,所抽得的样本平均数对总体平均数有代表性,抽样平均数和总体平均数之间的差异是抽样误差造成的。(1)在两个样本的总体方差和为已知时,用u检验由抽样分布的公式知,两样本平均数和的差数标准误,在和是已知时为:并有:在假设下,正态离差u值为,故可对两样本平均数的差异作出假设检验。4、两个样本平均数的检验例:据以往资料,已知某小麦品种每平方米产量的。今在该品种的一块地上用A、B两法取样,A法取12个样点,得每平方米产量=1.2(kg);B法取8个样点,得=1.4(kg)。试比较A、B两法的每平方米产量是否有显著差异?假设H0:A、B两法的每平方米产量相同,即系随机误差;对显著水平因为实得|u|0.05推断:接受,即A、B两种取样方法所得的每平方米产量没有显著差异。当总体的分布情况以及总体的方差未知,且样本容量很小(n<30)时,只有用样本算出的均方s2来估计总体的方差,此时,二、小样本平均数的假设检验-t检验1908年W.S.Gosset首先提出,又叫学生氏t分布(Student’st-distribution)1、t分布的提出2、u分布与t分布的比较t分布的平均数与u分布相同,都是0,并在t=0处曲线最高,以0为中心左右对称t分布的曲线性状随自由度ν而改变,自由度ν越小,其分布越离散,随ν值增大,逐渐趋近于u分布,当自由度增大到30时基本接近u分布b.与u分布曲线相比,t分布曲线的峰高较低,两侧接近x轴的速度更缓慢3、t分布的概率估计4、t检验T检验通过比较t值与tα的大小关系来判断否定还是接受H0tα可以通过查附表3获得(注意是两尾的临界值)一尾检验的t临界值tα(1)通过查附表中的相应自由度下对应2α的t2α(2)获得t表中,ν相同时,P越大,t值越小,反之亦然因此,当计算所得|t|大于或等于表中所查tα时,说明,其属于随机误差的概率小于或等于规定的显著性水平,即t位于否定区内,则否定H0,否则接受H05、单个样本平均数的假设检验这是检验某一样本所属的总体平均数是否和某一指定的总体平均数相同。例:某春小麦良种的千粒重μ0=34g,现自外地引入一高产品种,在8个小区种植,得其千粒重(g)为:35.6,37.6,33.4,35.1,32.7,36.8,35.9,34.6,问新引入品种的千粒重与当地良种有无显著差异?检验步骤为:H0:新引入品种千粒重与当地良种千粒重指定值相同,即μ=μ0=34g;对HA:μ≠34g显著水平α=0.05检验计算:=(35.6+37.6+…+34.6)/8=35.2(g)查附表3,ν=7时,t0.05=2.365。现实得|t|<tα=2.365,故P>0.05。推断:接受H0:μ=34g,即新引入品种千粒重与当地良种千粒重指定值无显著差异。6、两个样本平均数的假设检验这是由两个样本平均数的相差,以检验这两个样本所属的总体平均数有无显著差异。检验的方法因试验设计的不同而分为成组数据的平均数比较和成对数据的比较两种。(1)成组数据的平均数比较如果两个处理为完全随机设计,各供试单位彼此独立,不论两个处理的样本容量是否相同,所得数据皆称为成组数据,以组平均数作为相互比较的标准。1、在两个样本的总体方差已知时,用u检验。例:据以往资料,已知某小麦品种每平方米产量的σ2=0.4(kg)2。今在该品种的一块地上用A、B两法取样,A法取了12个样点,得每平方米=1.2(kg);B法取得8个样点,得=1.4(kg)。试比较A、B两法的每平方米产量是否有显著差异?系随机误差;假设H0:A、B两法的产量相同,即H0:对HA:μ1≠μ2,α=0.05推断:接受H0:μ1=μ2,即A、B两种取样方法所得每平方米产量没有显著差异。检验计算:因为实得|u|<u0.05=1.96,故P>0.05。的加权平均值,即:2、在两个样本的总体方差和为未知,但可假定==σ2,而两个样本又为小样本时,用t检验。首先,从样本变异算出平均数差数的均方,作为对σ2的估计。由于可假定==σ2,故应为两样本均方当n1=n2=n时,则上式变为:由于假设H0:μ1=μ2,故上式为:例:研究矮壮素使玉米矮化的效果,在抽穗期测定喷矮壮素小区8株、对照区玉米9株,其观察值如下表:170230270290270250180270170y2(对照)210150170200160200160160y1(喷施矮壮素)从理论上判断,喷施矮壮素只可能矮化无效而不可能促进植物长高,因此假设H0:喷施矮壮素的株高与未喷的相同或更高,,即H0:μ1≥μ2对HA:μ1<μ2,即喷施矮壮素的株高较未喷的为矮。显著水平α=0.05。检验计算:按ν=7+8=15,查t表得一尾t0.05=1.753(一尾检验t0.05等于两尾检验的t0.10),现实得t=-3.05<-t0.05=-1.753,故P<0.05。推断:否定H0:μ1≥μ2,接受HA:μ1<μ2,即认为玉米喷施矮壮素后,其株高显著地矮于对照。(2)成对数据的比较若试验设计是将性质相同的两个供试单位配成对,并设有多个配对,然后对每一配对的两个供试单位分别随机地给予不同处理,则所得观察值为成对数据。成对数据,由于同一配对内两个供试单位的试验条件很是接近,而不同配对间的条件差异又可通过同一配对的差数予以消除,因而可以控制试验误差,具有较高的精确度。设两个样本的观察值分别为y1和y2,共配成n对,各个对的差数为d=y1-y2,差数的平均数为它具有ν=n-1。若假设H0:μd=0,则上式改成:即可检验H0:μd=0。则差数平均数的标准误为:例:选生长期、发育进度、植株大小和其它方面皆比较一致的两株番茄构成一组,共得7组,每组中一株接种A处理病毒,另一株接种B处理病毒,以研究不同处理方法的纯化的病毒效果,表中结果为-720206-121867-727205-121534-61483112132-1525101dy2(B法)y1(A法)组别病毒在番茄上产生的病痕数目,试检验两种处理方法的差异显著性。假设:两种处理对纯化病毒无不同效果,即:H0:μd=0;对HA:μd≠0。显著水平α=0.01。检验计算:查附表4,ν=7-1=6时,t0.01=3.707。实得|t|>t0.01,故P<0.01。推断:否定H0:μd=0,接受HA:μd≠0,即A、B两法对纯化病毒的效应有极显著差异。第三节样本频率的假设检验许多生物试验的结果是用百分数或成数表示的,称为样本频率,如结实率、发芽率等,这些百分数系由计数某一属性的个体数目求得,属间断性的计数资料。在理论上,这类百分数的假设检验应按二项分布进行,即从二项式(p+q)n的展开式中求出某项属性个体百分数的概率。但是,如样本容量n较大,p较小,而np和nq又均不小于5时,(p+q)n的分布趋近于正态。因而可以将百分数资料作正态分布处理,从而作出近似的检验。适于用u检验所需的二项样本容量n见下表。1400700.05600600.10200400.2080240.3050200.4030150.50n(样本容量)(较小组次数)(样本百分数)表4.1适于用正态离差检验的二项样本的和n值表一、一个样本频率的假设检验检验某一样本频率所属总体频率与某一理论值或期望值p0的差异显著性。由于样本频率的标准误为:故由即可检验H0:p=p0,HA:p≠p0。[例]以紫花和白花的大豆品种杂交,在F2代共得289株,其中紫花208株,白花81株。如果花色受一对等位基因控制,则根据遗传学原理,F2代紫花株与白花株的分离比率应为3∶1,即紫花理论百分数p=0.75,白花理论百分数q=1-p=0.25。问该试验结果是否符合一对等位基因的遗传规律?假设大豆花色遗传符合一对等位基因的分离规律,紫花植株的百分数是75%,即H0:p=0.75;对HA:p≠0.75。显著水平0.05,作两尾检验,u0.05=1.96。检验计算:因为实得|u|0.05。推断:接受H0:p=0.75,即大豆花色遗传是符合一对等位基因的遗传规律的,紫花植株百分数=0.72和p=0.75的相差系随机误差。以上资料亦可直接用次数进行假设检验。当二项资料以次数表示时,,故检验计算:于是结果同上二、两个样本频率相比较的假设检验检验两个样本频率和所属总体频率p1和p2的差异显著性.一般假定两个样本的总体方差是相等的,即,设两个样本某种属性个体的观察频率分别为和,而两样本总体该种属性的个体频率分别为p1和p2,则两样本频率的差数标准误为:上式中的q1=(1-p1),q2=(1-p2)。这是两总体频率为已知时的差数标准误公式。如果假定两总体的频率相同,即p1=p2=p,q1=q2=q,则:p1和p2未知时,则在的假定下,可用两样本频率的加权平均值作为p1和p2的估计。因而两样本频率的差数标准误为:故由即可对H0:p1=p2作出假设检验。[例]调查低洼地小麦378株(n1),其中有锈病株355株(y1),锈病率93.92%();调查高坡地小麦396株(n2),其中有锈病346株(y2),锈病率87.31%()。试检验两块麦田的锈病率有无显著差异?假设H0:两块麦田的总体锈病率无差别,即H0:p1=p2;对HA:p1≠p2。显著水平取,作两尾检验,u0.05=1.96。检验计算:实得|u|>u0.05,故P<0.05,推断:否定H0:p1=p2接受HA:p1≠p2,即两块麦田的锈病率有显著差异。[例]原杀虫剂A在1000头虫子中杀死657头,新杀虫剂B在1000头虫子中杀死728头,问新杀虫剂B的杀虫率是否高于原杀虫剂A?假设新杀虫剂B的杀虫率并不高于原杀虫剂A,即H0:P2≤P1;对HA:P2>P1。显著水平,作一尾检验,u0.01=2.326(一尾概率)。检验计算:实得u<-u0.01=-2.326,故P<0.01,推断:否定H0:P2≤P1,接受HA:P2>P1,即新杀虫剂B的杀虫率极显著地高于原杀虫剂A。三、二项样本假设检验时的连续性矫正二项总体的频率的分布是间断性的二项分布。把它当作连续性的正态分布或t分布处理,结果会有些出入,一般容易发生第一类错误。因此,在假设检验时需进行连续性矫正。(1)在n<30,而<5时这种矫正是必须的;经过连续性矫正的正态离差u值或t值,分别以uC或tC表示。(2)如果样本大,试验结果符合前表条件,则可以不作矫正,用u检验。(一)单个样本频率假设检验的连续性矫正单个样本频率的连续性矫正公式为:它具有v=n-1。式中是的估计值(5·23)(5·24)[例]用基因型纯合的糯玉米和非糯玉米杂交,按遗传学原理,预期F1植株上糯性花粉粒的p0=0.5,现在一视野中检视20粒花粉,得糯性花粉8粒,试问此结果和理论百分数p0=0.5是否相符?假设系p=p0=0.5的一个随机样本,即H0:p=0.5对HA:p≠0.5显著水平取,用两尾检验。检验计算:np=nq=20×0.5=10推断认为实得频率0.4与理论百分数0.5没有显著差异。查附表4,v=20-1=19,t0.05=2.093,现实得|t|0.05=20×0.4=8粒(糯),=20-8=12粒(非糯)(二)两个样本频率相比较的假设检验的连续性矫正设两个样本频率中,取较大值的具有y1和n1,取较小值的具有y2和n2,则经矫正的tC公式为:(5·25)它具有v=n1+n2-2。其中为中的估计值。[例]用新配方农药处理25头棉铃虫,结果死亡15头,存活10头;用乐果处理24头,结果死亡9头,存活15头。问两种处理的杀虫效果是否有显著差异?本例不符合表5.6条件,故需要进行连续性矫正。假设两种处理的杀虫效果没有差异,即H0:p1=p2;对HA:p1≠p2。显著水平,作两尾检验。检验计算:查附表,v=24+25-2=47≈45时,t0.05=2.014。现实得|tC|0.05。推断:接受H0:p1=p2,否定HA:p1≠p2,即承认两种杀虫剂的杀虫效果没有显著差异。本例如不作连续性矫正,t=(0.60-0.375)/0.143,大于1.29,增加了否定H0发生第一类错误的可能性。第四节参数的区间估计与点估计参数估计(estimationofparameter),是统计推断的另一个方面,它是指由样本统计结果对总体参数在一定概率水平下所作出的估计。参数估计包括区间估计(intervalestimation)和点估计(pointestimation)。所谓参数的区间估计,是指在一定的概率保证之下,估计出一个范围或区间以能够覆盖参数。一、参数区间估计与点估计的原理参数估计和点估计是建立在一定理论分布基础上的一种方法。由中心极限定理和大数定律得知,只要抽样为大样本,不论其总体是否为正态分布,其样本平均值都近似地服从正态分布,因而,当概率水平α=0.05或0.01时,即置信度为p=1-α=0.95或0.99的条件下,有:则:因此对于某一概率标准α,则有通式:二、一个总体平均数区间估计与点估计(一)在总体方差为已知时,服从正态分布的区间估计为:并有以上式中的为正态分布下置信度1-时的u临界值。(二)在总体方差为未知时,服从t分布需由样本均方s2估计,于是区间估计为:并有上式中的为置信度P=(1-)时t分布的t临界值。[例]某棉花株行圃36个单行的皮棉平均产量为kg,已知=0.3kg,求99%置信度下该株行圃单行皮棉产量的置信区间。在置信度P=(1-)=99%下,由附表3查得u0.01=2.58;并算得;故99%置信区间为即推断:估计该株行圃单行皮棉平均产量在4.0~4.2kg之间,此估计值的可靠度有99%。[例]上例已算得某春小麦良种在8个小区的千粒重平均数,。试估计在置信度为95%时该品种的千粒重范围。由附表4查得v=7时t0.05=2.365,故代入前面通式有,即推断:该品种总体千粒重在33.8~36.6g之间的置信度为95%。在表达时亦可写作形式,即该品种总体千粒重95%置信度的区间是35.2±(2.365×0.58)=35.2±1.4(g),即33.8~36.6g。三、两个总体平均数差数()的区间估计在一定的置信度下,估计两总体平均数至少能差多少。估计方法依两总体方差是否已知或是否相等而有不同。(一)在两总体方差为已知或两总体方差虽未知但为大样本时对的1-置信区间应为:并且上式中的为平均数差数标准误,为正态分布下置信度为1-时的u临界值。[例]测得高农选1号甘薯332株的单株平均产量,15×50(g),5.3×50(g),白皮白心甘薯282株,12×50(g),3.7×50(g)。试估计两品种单株平均产量的相差在95%置信度下的置信区间。由附表查得置信度为0.95时,u0.05=1.96;并可算得:因而,95%的置信限为:L1=(750-600)-1.96×18=114.7(g)L2=(750-600)+1.96×18=185.3(g)故高农选1号甘薯的单株平均产量比白皮白心甘薯多114.7~185.7(g),这个估计有95%的把握。(二)在两个总体方差为未知时,有两种情况:1.假设两总体方差相等,即:的1-置信区间为:并有以上的为平均数差数标准误,是置信度为1-,自由度为v=n1+n2-2时t分布的临界值。[例]试估计右边表中资料两种密度亩产量差数在置信度为99%时的置信区间。计算得:由附表3查得v=8时,t0.01=3.355故有L1=(428-440)-(3.355×11.136)=-49.4,L2=(428-440)+(3.355×11.136)=25.4(kg)。的。420425445460445435440420450400Y2(每亩35万苗)Y1(每亩30万苗)当被接受时,意味着两总体平均数相等,即。因此,可用两样本平均数的加权平均数作为对的估计:或因而对的置信区间为:2.两总体方差不相等,即,这时由两样本的和作为和估计而算得的t,已不是v=v1+v2的t分布,而是近似于自由度为的t分布。可得对的1-的置信区间为:故根据并有为置信度1-时自由度的t分布临界值其中[例]测定冬小麦品种东方红3号的蛋白质含量(%)10次,得y1=14.3,s12=1.621;测定农大139号的蛋白质含量5次,得y2=11.7,s22=0.135。试求东方红3号小麦的蛋白质含量与农大139号小麦蛋白质含量的相差的95%置信限。计算得:由附表3查得故有L1=(14.3-11.7)-(2.201×0.435)=1.6(%),L2=(14.3-11.7)+(2.201×0.435)=3.6(%)因此东方红3号小麦的蛋白质含量可比农大139号高1.6~3.6%,这种估计的可靠度为95%。四、一个总体频率p的区间估计和点估计二项总体百分数p的置信区间,在资料符合表4.1条件时可按二项分布或正态分布来估计。在置信度p=1-下,对总体p置信区间的近似估计为:其置信区间的上下限:,以上式中点估计为:注:当样本容量较小时,需要进行连续性矫正。[例]调查100株玉米,得到受玉米螟危害的为20株,即=20/100=0.2或=20。试计算95%置信度的玉米螟危害率区间估计和点估计。由于小于30,需要进行连续性矫正,计算得:故L1=0.2-(1.96×0.04)-0.5/100=0.1166,L2=0.2+(1.96×0.04)+0.5/100=0.2834五、两个总体频率差数(p1-p2)的区间估计和点估计这是要确定某一属性个体的频率在两个二项总体间的相差范围。这一估计只有在已经明确两个百分数间有显著差异时才有意义。若资料符合表4.1条件,该区间可按正态分布估计。在1-的置信度下,p1-p2的区间估计为:并有其中[例]已测知低洼地小麦的锈病率=93.92%(n1=378),高坡地小麦的锈病率=87.31%(n2=396),它们有显著差异。试按95%置信度估计两地锈病率差数的区间估计。由附表2查得u0.05=1.96,而故有L1=(0.9392-0.8731)-(1.96×0.02075)=0.0256,L2=(0.9392-0.8731)+(1.96×0.02075)=0.1070,即低洼地的锈病率比高坡地高2.56~10.70%,此估计的置信度为95%。作业:教材第73页4.1——4.11
本文档为【统计假设检验】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥16.9 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
丹丹陪你去流浪
暂无简介~
格式:ppt
大小:839KB
软件:PowerPoint
页数:70
分类:管理学
上传时间:2021-12-25
浏览量:1