首页 非参数统计学讲义(第二章)讲稿

非参数统计学讲义(第二章)讲稿

举报
开通vip

非参数统计学讲义(第二章)讲稿。非参数统计学讲义第二章单样本模型§1符号检验和有关的置信区间在有了一个样本X1,,Xn之后,很自然地想要知道它所代表的总体的“中心”在哪里.例如,在对人们的收入进行了抽样之后,就自然要涉及“人均收入”和“中间收入”等概念.这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。例如,在知道总体是正态分布时,要检验其均值是否为;一个传统的基于正态理论的典型方法是...

非参数统计学讲义(第二章)讲稿
。非参数统计学讲义第二章单样本模型§1符号检验和有关的置信区间在有了一个样本X1,,Xn之后,很自然地想要知道它所代 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 的总体的“中心”在哪里.例如,在对人们的收入进行了抽样之后,就自然要涉及“人均收入”和“中间收入”等概念.这就与统计中的对总体的均值(mean),中位数(median)和众数(mode)等位置参数的推断有关。例如,在知道总体是正态分布时,要检验其均值是否为;一个传统的基于正态理论的典型方法是t检验.它的检验统计量定义为tXs/n这里X为样本均值,而S1(XX)2为样本 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差。t—检验的统计量在零假设下有n—1个自由度的t—分布。n1检验统计量是用样本标准差s代替了有标准正态分布的检验统计量的总体标准差后而产生的在大样本时,二者几乎相等。t—检验也许是世界上用得最广泛的检验之一。但是,t—检验并不稳健,在不知总体分布时,特别是小样本时,应用t—检验就可能有风险。这时就要考虑使用非参数方法。对于本章所要介绍的数据趋势或随机性检验,就不存在简单的参数方法.非参数方法总是简单实用的。本章所介绍的一些检验有代表性,因此这里的讨论将比其它章节更为仔细.一旦熟悉了非参数方法的一些基本思路,后面的内容就很容易理解了.一、问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 的提出【例2-1】联合国人员在世界上66个大城市生活花费指数(以纽约市1962年12为100)按自小至大的次序排列如下(这里北京的指数为99):表2-1生活花费指数数据66757880818182838383838485858686868687878888888888898989899090919191919293939696969799100101102103103104104104105106109109110110110111113115116117118155192在例子中,人们可能会问:①总体的平均(或者中间)水平1是多少?②北京是在该水平之上还是之下?可以假定这个样本是从世界许多大城市中随机抽样而得的所有大城市的指数组成总体.可能出现的问题是:这个总体的平均(或者中间)水平是多少?北京是在该水平之上还是之下?这里的平均(或中间)水平是一个位置参数。一般的统计 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf 中的均值就是一个位置参数.中位数是另一个位置参数.它们都是数据总体中心位置的度量和位置参数相对的一个参数为尺度参数;比如在标准统计课本中的描述数据集中和分散程度的方差或标准差.这个例子经过简单计算,得到样本均值为96.45,而样本中位数为91;它们都可作为总体的中心的估计,除此之外,众数(频率最大的点,本例是88)可作为中间位置.通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t检验有关的方法进行的。然而,在本例中,总体分布是未知的为此首先看该数据的直方图从图中很难说这是什么分布。在右边的两个点分别是东京和香港。11x(n1)/2n为奇数njx(i)xi;③修整均值:T(j)刻划位置参数的量有:①平均值:;②中位数:Mx(n1))/2n为偶数,n(x(n)ij1n2jjnX(1))/2。;④众数;⑤中列数:(X(n)2精选资料,欢迎下载。302010Std.Dev=18.09Mean=96.50N=66.0070.090.0110.0130.0150.0170.0190.080.0100.0120.0140.0160.0180.0VAR00001由于此时我们不知道总体是否为正态分布(或者数据表明它就不是一个正态分布),所以有关参数统计中的t-统计量就不能用,势必要选择非参数的统计量来解决这样的问题。符号检验(SignTest)是利用正、负号的数目对某种假设作出判定的非参数统计方法。二、普通的符号检验1.基本方法如果所研究的问题,可以看作是只有两种可能:“成功”或“失败”,并且成功或失败的出现被假定遵从二项式分布,以“+”表示成功,以“-”表示失败,那么随机抽取的样本就有两个参数:成功的概率P+和失败的概率P—。这样就可以构造一个假设:H0:PPH1:PP这是双侧检验,对备择假设H1来说,不要求P+是否大于P—。如果所研究的问题,要求考虑是P+比较大还是P—比较大,则需用单侧备择假设,即H0:PPH0:PPH:PPH:PP这里H表示P+是比较大的,H被用来说明P—是比较大的。为了检验上面的假设,普通的符号检验所定义的检验统计量为S和S。S表示为正符号的数目,S表示为负符号的数目,SSn是符号的总数目。要对假设作出判定,需要找到一个P值。因为对于S和S来说,抽样分布是一个带有0.5(表示成功的概率)的二项式分布,所以如果H0为真,从二项分布表中能够根据n、S和S查到P值。若P值很小,表明H0为真的可能性很小,数据不支持H0,而支持H1。注:①双边假设检验中的尾概率P-值应是单边假设检验中的P-值的2倍;②在n(n20)较小时,可以利用二项分布表查表,计算出精确的P-值;在n(n>20)较大时,则要用正态分布来近似,因为k~Bin(n,1/2),所以Zkn/2kn/2~N(0,1),n/4n/2并且要作连续性修正。S0.50.5nZ0.5nS0.50.5nZ0.5(0.1)n③普通的符号检验其判定可以归纳如表2—2所示。表2-2生活花费指数数据2备择假设P值(二项分布表)n注释:P(Ss)is注意与教材中取最小二者之间最小值的等价性。npi(1p)nii精选资料,欢迎下载si0npi(1p)niP(Ss)i。H:PPS的右尾概率S的左尾概率H:PPS的右尾概率S的左尾概率H1:PPS和S中大者右尾概率的S和S中小者左尾概率的2倍2倍备择假设P值(正态分布表)H:PPZ的右尾概率H:PPZ的右尾概率H1:PPZ和Z中大者右尾概率的2倍2.应用在实际问题的研究中,常常会遇到难以用数值确切表达的问题,而采用符号检验可以帮助解决这类问题的研究。【例2-2】女性在对事物的看法上是否倾向于比男性保守—些社会科学家对这样的事实很感兴趣,当夫妇俩人有一个类似的观点时,妻子可能比丈夫要保守。为了验证这一事实是否成立,随机选取了50对夫妇进行调查。按预先制定的问题每人分别被间问,结果只有10对夫妇的看法倾向性差异较大,而其中9对夫妇的妻子确实比丈夫保守。分析;研究这—问题,可以看作是“成功”与“失败”的问题,妻子比丈夫保守为成功,妻子不如丈夫保守为失败。因为希望得出妻子比丈夫较为保守的结论,故而备择假设是单侧的,即P+>P—。这样建立的假设为:H0:PPH:PP由于在10对符合条件的夫妇中,有9对妻子比丈夫保守,因而S=9,S=1,n=10。根据n=10,S=9,查附表,S为9的右尾概率P=0.0107,也就是说,对于成功概率=0.5的二项分布来说,在10次试验中,有9次或9次以上成功的概率P为0.0107,这是个极小的概率。因此,可以得出结论:这批调查的数据不支持H0,而支持备择假设,即妻子确实比丈夫要保守些。【例2-3】广告对商品促销是否起作用人们一般认为广告对商品促销起作用,但是否对某种商品的促销起作用并无把握。为了证实这一结论,随机对15个均销售该种商品的商店进行调查,得到的数据如表2—3。表2-3广告前后销售稿况表商店123456789101112131415未作广告每日销量222223332323233广告后每日销量233442343342344差值的符号++++-+++-+++分析:由于假定随机油取的15个商店在广告前后其它条件均没有变化,如营业员人数,营业面积,服务质量等等,仅仅是考察广告的作用,因此符合普通符号检验的条件。由于想得出广告起作用的结论,因而是单侧检验,即广告后销量增加。建立的假设为H0:PPH:PP根据表2-3可知,S=10,而S=2,n=12。在附表中,n=12,S=l0的右尾概率P=0.0193。这也是一个很小的概率,表示调查结果不支持H0,而支持H1,即广告确实对这种商品促销起了作用。【例2-4】顾客对咖啡、茶的喜好是否有差异。若有差异,是否更喜欢茶。为了解顾客对咖啡,茶的喜好情况,在某商店随机抽取l5名顾客进行调查,结果有12名顾客更喜欢茶,2名顾客更喜欢咖啡,1名对两者同样爱好。分析:顾客对咖啡、茶的喜好调查,其目的只是为了比较两者中哪个更受欢迎,并无定量的数值,因而可以来用符号检验。在咖啡、茶中更喜欢茶为“成功”,反之为“失败”故可建立假设H0:PPH1:PP这一假设仅判定对二者喜欢程度有无差异。由调查结果知:S=12,S=2,n=14。查附表,n=14时,S与S中大者S精选资料,欢迎下载。=12右尾概率的2倍是2×0.0065=0.0130。显然P=0.0130很小,以显著性水平=0.05,P足够小,故这批数据不支持H0,即顾客对咖啡和茶的喜爱有显著差异。要判断是否更喜欢茶,建立单侧备择假设H0:PPH:PP根据上面的分析,n=14,S=12时,附表显示的P值为0.0065。对于=0.01,P值也足够小,故数据不支持H。,而支持H+。顾客在咖啡和茶中更喜欢茶。三、位置的符号检验1.基本方法一个随机抽取的样本,有n个数据x1,x2,,xn,其实际的总体中位数记作M,假定的中位数是某个特定值,记作0。若研究M问题时关心的是:真实的中位数M是否不同于M0,可以建立假设H0:MM0H1:MM0如果关心的是:真实的中位数M是否大于或小于特定的数M,则应建立单侧备择假设0H0:MM0H0:MM0H:MM0H:MM0只要样本数据x1,x2,,xn能够被测量,至少是定距尺度测量,若定序尺度测量的,应能与M0相比并决定大小次序,也就是说,数据与M0比较的结果能用“十”或“一”表示,设定x1,x2,,xn在M0附近是连续的,则普通的符号检验方法可以应用。这就是符号检验法用于单样本位置的推断。检验统计量。位置的符号检验所定义的检验统计量也是S和S,S表示每一个观察数据xi(i1,2,,n)与特定的数M的0差值DixiM0的符号为正的数目,即SI(XiM0);S表示Di符号为负的数目,即SI(XiM0)。SSn,n表示符号的总数目。由于M为中位数,故每一个样本点要么大于M,要么小于M(除去相等的那些点)且概率都为0.5。所以一系列的样本观察值就相当于一个n重Bernoulli试验,从而有S和S~Biu(n,1/2)。S和S就是所要找的统计量,因为它满足统计量的要求:①样本的函数;②分布已知。P值的确定。当n20时,与普通的符号检验一样,从附表中查找;若n>20,由正态近似得到P值,在正态分布表中查找。2.应用【例2-1】接引例分析:①零假设H0:M≥99备择假设H1:M<99②选取统计量K=S+~Bin(65,0.5),这里n为除去99这一点后剩余的样本点数;统计量选取的是S与S当中一个较小的量,与查表的做法不同。③计算P-值④判断【例2-6】生产过程是否需要调整某企业生产一种钢管,规定长度的中位数是10米。现随机地从正在生产的生产线上选取10根进行测量,结果为:9.810.19.79.99.810.09.710.09.99.8分析:中位数是这个问题中所关心的一个位置参数。若产品长度真正的中位数大于或小于10米,则生产过程需要调整。这是—个双侧检验,应建立假设H0:MM010H1:MM010为了对假设作出判定,先要得到检验统计量S、S。将调查得到数据分别与10比较,算出各个符号的数目:S=l,S=7,n=8(差值Di=0的不计)。在附表中,n=8,S与S中较大者7的右尾概率的2倍是2×0.0352=0.0704。若显著性水平=0.05,P已足够大,表明调查数据支持H0;根据这批数据,生产过程暂不需做调整3.配对样本位置的符号检验作为单样本位置的符号检验,也能够应用于配对样本。随机选取n个数据对(x1,y1),(x2,y2),,(xn,yn)至少是定距尺度测量,若是定序尺度测定,那么就要既对于样本的数据,又要对于M0都是定序尺度。因为,为利用符号检验,至少要求每对数据的差值Dxy相对于M来说都是可以测定的。假定差值总体在M附近是连续的,M表示随机变量的数对之间差值iii000D1,D2,,Dn的总体中位数,M仍表示特定的数,则将位置的符号检验假设中的M以M替代就可以得到配对样本的假设组0D精选资料,欢迎下载。H0:MDM0H1:MDM0H0:MDM0H0:MDM0H:MDM0H:MDM0配对样本的方法同单样本位置的符号检验方法一样,检验统计量也是S、S0的差值的符号为正。但是,S是差值Di与M的数目,S是DiM0为负的符号数目。其中DiM0xiyiM0。和以前—样,若DiM00,则n中不计。判定假设的P值仍在附表中,按以前那样查找。若n>20,也是利用S与S按(2.1)式计算Z,在附表中查找相应的P值。【例2-6】领导者的领导水平是可以训练的为验证领导水平是可以训练的,根据人的聪明程度、人品、受教育状况等,随机抽选出12个人配成6对,每对中有一人随机选择受训,记作T,另一人则不受训记作C。经过一段时间后,按被设计好的问题评价他们的领导水平,结果如表2-4。表2-4配对样本评价表配对样本编号T的评价(x)C的评价(y)x-y的符号11310+2197+33420+42438-54022+63915+分析:表中的分数并不是精确测量的结果,它只是相对的领导能力比较。它没有一个精确的量的意义,而是一对中两人比较,反映领导水平差异性的符号。如果领导水平是可以训练的,那么接受待定训练的成员应该比那些配对的非受训人员有较高的分数,因此比备择是单侧的。合适的假设为H0:MD0H:MD0由表2-4给出的数据可知,S=5,S=l,n=6,在二项分布表中查找的准确P值为n=6,S=5的右尾概率,即P=0.1094。于显著性水平=0.05。显然P值是够大的。因此这批数据支持H0,不支持H1,即这批数据不足以说明领导水平是可以训练的。【例2-7】人的智商是否随出生顺序而升高通过对以往在校学生的调查发现,智商往往随着出生顺序而升高,这种关系在成年人中是否也存在?通过随机选取13对成人的同胞兄弟姐妹进行调查,得到智商的数值如表2-5。精选资料,欢迎下载。表2-5配对样本智商值统计表配对样本编号第一胎出生的智商值(x)以后出生的智商值(y)X-y的符号18682+29094-39196-4101106-59392+68590-79298-8115120-97274-107580-11120130-12106110-13104109-分析:如果成年人的智商与出生顺序有关,并与孩子的规律相同,那么头一胎出生的人的智商值应该比自己的其他兄弟姐妹低。因此应建立单侧备择假设。差值Dixiyi是第一胎的智商值减去后面出生的弟或妹的智商值。对于零假设,应该是他们的智商值无差异,也就是智商值差值的中位数M0=0。这是一个配对样本位置的符号检验。建立在差值中位数基础上的假设为H0:MD0H:MD0由表2—5可知,S=2,S=11,n=13。在附表中相对于n=13,S=11的石尾概率是0.0112,这是准确的P值。对于显著性水平=0.05,P值要小得多。这意味着,对于那些差值的中位数为0的随机变量,在13个符号中,有11个是负号的情况极少出现。因而数据不支持H0。,而支持H。这表明对于成年人来说,出生顺序仍然对智商有影响,智商随着出生顺序而增高。四、中位数的置信区间符号检验的统计方法可以用来估计单样本总体中位数的置信区间、配对样本差值总体中位数的置信区间。1.顺序统计量顺序统计量(OrderStatistic)亦称次序统计量。它在非参数统计中有很多的应用。它是原有样本数据按逐渐升高的顺序排列的。这里,若r<s,那么X(r)X(s),只是表明它们以什么样的顺序被观察,按从小到大则顺序X(r)在前,X(s)在后,至于它们的相对数值大小是多少并没有意义。顺序统计量没有与原有变量相同的概率函数,即使原变量是独立的,顺序统计量事实上可能不独立。2.置信区间置信区间即满足一定置信度的区间,非参数统计中置信区间仍是指的用样本指标估计总体指标变动范围和可靠程度。对未知分布的单样本总体中位数置信区的估计、差值总体中位数置信区间的估计,是与符号检验方法相对应的。在置信区间的估计中,使用顺序统计量。设X(1),,X(n)为样本点X1,,Xn的顺序统计量,若M是未知分布的总体中位数或差值总体的中位数,它是真实的但未知,则其置信区间由置信系数1来决定。是由研究者选择的,越大,则置信区间越宽,区间宽,由其提供的关于位置参数的信息就越少,因此选择时应对精度及提供信息量作权衡。由或确定的置信区间为PX(i)MX(j)1由符号检验知:大于M和小于M的样本点数都服从Bin(n,0.5),则有jn(1)k(11)nk1jn1kik222nkik满足(2.3)的i和j的搭配很多,即置信区间很多。我们希望选择一个对称区间足:X(k1)MX(n3k)(0.2)(0.3)[X(k1),X(nk)]。令k~Bin(n,0.5),则k应满(0.4)3这里所给出的区间为“对称”区间,“对称”指的是区间的两个端点分别到X(1)和X(n)的距离相等。精选资料,欢迎下载。1PX(k1)MX(nk)1PX(1),,X(k)MPX(nk1),,X(n)M12P(Kk)(0.5)11k1n2n1ii0在满足置信度的前提下,我们再来保证精度,选择一个最优的置信区间。这里,n是样本数据的个数,k是置信区间下限的一个临界值。当n20时,k能够借助二项分布表找到,若n>20,k的近似值是以带有连续性修正的正态分布为基础,通过式Zk0.5n/2计算得到n/2Kk10.5(n1Z/2n)(0.6)式中,Z是一个正数,它是与标准正态分布表中(1)/2的一个右尾概率相对应的分位数值。【例2-7】在例2-5中测量的钢管长度的中位数置信区间,使用置信系数=0.90。分析:将测量的样本数据按从小到大的顺序排列,得到顺序统计量9.79.79.89.89.89.99.910.010.010.1要确定这批数据总体真实中位数的90%置信区间,就是要找到与相对应的k。因为置信区间的端点是顺序统计量中处在第k十1位置,第n—k位置的两个数值。在双侧检验中,k是一个临界值,是在二项分布表中,根据(1)/2水平,即P值为(1)/2,样本数据个数n查到的一个左尾的正号或负号的数目,由=0.90,(1)=0.10,x=10,查附表可知,表中没有0.05而只有0.0547,这是距0.05最近的P值,因此,k为左尾的正号或负号数目是2。k=2,意味着中位数M的89.06%的置信区间为X(21)MX(102)(0.7)即X(3)MX(8)=[9.8,10.0]也就是说,可以有近90%的把握,钢管的中位数处在9.8米至l0米之间。注:对于单测检验来说,置信区间估计的方法基本同上,只是对于置信系数来说,在附表中查找k时,P不是(1)/2,而是(1)。例如对应于单侧检验H:MM0。估计MX(k1)的95%置信区间,根据=0.95。(1)=0.05,n=10,查二项分布表,得到与P=0.0547相应的,S的左尾数目为2,即与=0.9453对应的k=2。因此,钢管中位数M≥9.8的置信系数为94.53%。对于单侧检验H:MM0来说,估计MX(nk)的95%置信区间,在附表中,根据P=(1)=0.05,n=10。查找,由于在表中与单侧检验H+相对应的是S的左尾概率,所以k=2,即M的94.53%的置信区间为MX(102),也就是M≤10.0。例我国国有经济15个行业的1996年职工平均工资按从小到大的次序为(单位:元)403849405798616163446610669567096967699278977987854686798701求中位数的置信区间。把n个样本点按从小达到的顺序排列,得X(1)X(2)X(n)假设顺序统计量X(i)X(j),由X(i),X(j)构成区间X(i),X(j)作为中位数的置信区间。由于大于和小于中位数M的样本点数服从B(N,0.5)jknknn1pX(i)MX(j)Cnk11Cnk1ki22i12由于得到的区域是以中位数位对称的,故k1n111pX(k1)MX(nk)12p(Kk)Cnki02精选资料,欢迎下载。kP(K 公式 小学单位换算公式大全免费下载公式下载行测公式大全下载excel公式下载逻辑回归公式下载 要作修正。详见教材P39。在许多情况下,数据中有相同的数字,称为结(tie).结中数字的秩为它们按升幂排列后位置的平均值.比如2.5,3.1,3.1,6.3,10.4这五个数的秩为1,2.5,2.5,4,5。也就是说,处于第二和第三位置的两个3.1得到秩(2十3)/2=2.5.这样的秩称为中间秩。如果结多了,零分布的大样本公式就不准了。因此,在公式中往往要作修正。ZTn(n1)/4~N(0,1)gi3n(n1)(2n1)/24[i]/48i1⑥判断二、应用1.单样本的应用【例2-8】铸件的机加工是否应转包出去某钢铁公司订购了一批铸件,在使用前需进行机加工。这一任务可由公司承担,也可以转包给他人。公司为减少加工费用,所确定原则是:若铸件重量的中位数超过25公斤,就转包出去;等于或小于25公斤则不转包。从这批100件中随机抽取了8件进行测量,每件重量分别为:24.3,25.8,25.4,24.8,25.2,25.1,25.0,25.5。使用这些数据,能否作出这批铸件是否转包的决定。分析:这个问题中,公司采用的是以重量为基础的标准,而且关系到中位数,又因为样本的数量很小,因而宜采用Wilcoxon4其中,W为XiM00的绝对秩的和;W为XiM00的绝对秩的和,WW12nn(n1)。25有关分布的讨论详见教材P34。精选资料,欢迎下载。符号秩检验。在这里假定铸件重量是对称性分布似乎比正态分布更合理。由于考虑是否转包,因而备择假设应是单侧,建立的假设组为H0:M25H:M25为作出判定,需要计算统计量W和W,计算过程见表2—6。表中第7个数字与假定中位数正好相等,因此D=0。由于0无法给出正或负号,因而在对差的绝对值D排等级时也就被忽略不计。当DiDj时,在排列分等级过程中,其秩取这些等级的简单干均数。D40.2D5,D数值从小到大排等级应是第2级和第3级,取(2十3)/2为其秩,即D4、D5的秩均为2.5。表2-6秩次和计算表编号重量(x)D=x-25DD的秩D的符号124.3-0.70.76-225.80.80.87+325.40.40.44+424.8-0.20.22.5-525.20.20.22.5+625.10.10.11+725.000825.50.50.55+根据表中D的符号和D的秩,可以计算得到:W62.58.5Wn(n1)/2S19.5根据n=7,W8和W9查附表3,得到W的左尾概率为0.1875和0.2344。与W8.5相对应的右尾概率即P=(0.2344十0.1875)/2=0.211。由于P=0.211相对于显著性水平0.05已足够大,因此调查数据支持H0,即该公司订购的这批铸件,从减少加工费用的角度还是不转包为好。2.配对样本的应用Wilcoxon符号秩检验大量地应用于配对样本。若M表示两个随机变量差值总体的中位数,M是某一特定的数,那么可以建立D0的假设组为H0:MDM0H1:MDM0H0:MDM0H0:MDM0H:MDM0H:MDM0应用Wilcoxon符号秩检验的数据应含有n对观察值(x1,y1),(x2,y2),,(xn,yn)。或有一组n个差值d1,d2,,dn,即dixiyi,且假定差值di的总体是连续的,关于中位数D是对称的。一般来说,这些差值至少是定距尺度测量的,若是定序M尺度,则为检验所需的等级,符号都应能确定。对假设作出判断的方法基本与单样本相同,只是D不再是xiM0,而应是xiyiM0,即diM0。【例2-9】新配方是否有助于防晒黑某防晒美容霜制造者,欲了解一种新配方是否有助于防晒黑,对7个志愿者进行了试验。在每人脊椎一侧涂原配方的美容霜,另一侧涂新配方的美容霜。背部在太阳下暴晒后,按预先给定的标准测定晒黑程度如表2-7。表2-7两种配方晒黑程度测量结果编号原配方(y)新配方(x)编号原配方(y)新配方(x)14238544332515365549331367483646152分析:这一问题是配对样本,同一个人使用两种不同配方的美容霜,以检验两种配方对防晒黑的作用是否有显著不同,可以应用Wilcoxon符号秩检验。新配方的晒黑程度记作x,原配方的为y,则差值dixiyi。假定di关于中位数对称,那么两种配方精选资料,欢迎下载。的作用无显著差异时,di的总体中位数应是0,即M0=0。为检验新配方是否优于原配方,则应建立的假设组为H0:MD0H:MD0为对假设作出判定,要计算W和W,计算过程如表2-8。精选资料,欢迎下载。表2-8检验统计量计算表6编号xyD=x-yDD的秩D的符号13842-442-25351221+33631553+45261-995-53344-11116-64955-664-73648-12127-由表可知W134Wn(n1)/2W24根据n=7,W4,查附表,得到W的左尾概率P=0.055。这个概率对于显著性水平=0.05来说已够大。一般在样本较小时,宜取稍大些的显著性水平,以避免犯第二类的错误,即“以假为真”的错误。取显著性水平=0.05,则该调查数据支持H。,即两种配方对晒黑的作用没有什么显著差异。若对于显著性水平=0.10,该次调查结果则不支持H。,即调查足以说明新配方对防晒的效果优于原配方。若希望同时减小犯两类错误的可能性,应增加样本数目。符号检验与Wilcoxon符号秩检验的联系:1.区别符号检验仅使用各个观察值和中位数差值或配对样本差值与中位数差值方向上的信息,而没有考虑差值的大小。例如在本例中,我们选取34和16,由于其位置对称,从而导致符号提供信息的对称,导致结论的对称性,显然结论是不科学的。符号秩检验不仅利用差值方向上的信息,还利用了差值大小的信息,因此,它提供的信息量要多于符号检验。关于两种检验的功效有过不少的研究和报道,有兴趣的读者可以去阅读有关书籍。在大多数情况下Wilcoxon符号秩检验应该被优先使用。2.共同点符号检验和符号秩检验都是非参数检验,都能运用于单一观察的数据或配对观察数据的差,都能用于总体中位数或差值总体的推断。它们对总体所要求的假定都是极小的。对符号检验来说,是总体连续;对符号秩检验来说,再增加一个关于中位数对称。这两种检验数据测量层次的要求都不高。普通的符号检验被使用于两分类总体,类似于回答“是”或“不是”的问题,可用于定类尺度的测量,但要求差异的方向能够被表示出;符号秩检验至少要求定序尺度测量,仅当等级和符号能够被表示出时。由于两个检验都与符号有关,因而处理0差值的方法是共同的,均被忽略不计。3.与学生t检验的比较如果总体分布是对称性的,且方差已知,那么符号检验、符号秩检验、学生t检验都可以被选择使用,因为在对称性分布情况下,均值与中位数相等。然而,学生t检验是建立在正态分布假设基础上,这是一个比对称性假设严格得多的假定条件。当样本数据的正态假定可靠,且数据是在定距尺度测量时,学生t检验作为一种最强有力的方法应该被优先选择。但当下列情况之一发生时,非参数检验的方法要优于参数检验方法。样本数目很小;唯一可以得到的数据是定类或定序尺度测量的;作为一组数据的处理,样本的中位数似乎比均值更可靠;对于所研究的问题来说,中位数是比均值更有代表性的位置参数;总体很少或者几乎没有一个概率分布(对符号秩检验仅需要一个对称性假定);总体分布未知,但几乎很少类似于正态。6表中Dxy是因为M0=0。精选资料,欢迎下载。§3游程检验一、问题的提出游程检验亦称连贯检验或串检验,是一种随机性检验方法,应用范围很广。例如生产过程是否需要调整,即不合格产品是否随机产生;奖券的购买是否随机;期货价格的变化是否随机等等。若事物的发生并非随机,即有某种规律,则往往可寻找规律,建立相应模型,进行分析,作出适宜的决策。或如果一个试验者希望从总体的一个样本所包含的信息中得出关于该总体的某些结论,那么它的样本必须是随机样本,所以对样本是否为随机样本的检验也至关重要。二、普通的游程检验(OrdinaryRunsTest)1.游程的含义一个可以两分的总体,如按性别区分的人群,按产品是否毛病区分的总体等等,随机从中抽取一个样本,样本也可以分为类;类型I和类型R。若凡属类型I的给以符号A,类型B的以符号B,则当样本按某种顺序排列(如按抽取时间先后排列)时,一个或者一个以上相同符号连续出现的段,就被称作游程,也就由说,游程是在一个两种类型的符号的有序排列中,相同符号连续叫现的段。例如,抛掷一枚硬币,机器是否发生故障,XiX的差都可以得到一系列的符号或记号。++---+----++-+110001000011011234567定义:游程是指一个具有相同符号的连续串,在与它前后相接的是不同的符号或完全无符号。例中的游程数目U=7个。2.游程检验的基本思想在任一给定容量的样本中,游程的总数标志着样本是否是随机的。若游程的数目过少,则意味着样本由于缺乏独立性而形成了一致的趋势;若数目过多,则序列存在着某种周期性的影响。例如:抛币20次,结果如下。HHHHHHHHHHTTTTTTTTTTHTHTHTHTHTHTHTHTHTHT因此可以通过游数目的多与少来判断序列是否存在随机性。3.基本方法(1)提出假设随机抽取的一个样本,其观察值按某种顺序排列,如果研所关心的问题是:被有序排列的两种类型符号是否随机排列,则以建立双侧备择,假设组为H0:序列是随机的H1:序列不是随机的如果关心的是序列是否具有某种倾向,则应建立单侧备择,假设为H0:序列是随机的H+:序列具有混合的倾向或H0:序列是随机的H—:序列具有成群的倾向为了对假设作出判定,被收集的样本数据仅需定类尺度测量,但要求进行有意义的排序,按一定次序排列的样本观察值能够被变换为两种类型的符号。如某售票处按到来的先后顺序排队购标的人,按性别分别记作A、B两种类型的符号,可以得到一个序列:AABABB。第一种类型的符号数目记作m,第二种记作n,则N=m十n。(2)选择统计量在H。为真的情况下,两种类型符号出现的可能性相等,其在序列中是交互的。相对于一定m、n,序列游程的总数应在一个范围内。若游程的总数过少,表明某一游程的长度过长,意味着有较多的同一符号相连,序列存在成群的倾向;若游程总数过多,表明游程长度很短,意味着两个符号频繁交替,序列具有混合的倾向。因此,无论游程的总数过多或过少,都表明序列不是随机的。根据两种类型符号的变化,选择的检验统计量为U。U=游程的总数目(3)确定P-值精选资料,欢迎下载。①在小样本时可以直接查表【例2-12】抛币结果为:HHHHHHHHHHTTTTTTTTTT分析:该题中m=10,n=10,U=2,查表可得接受域为:[6,16],而U=2<6,拒绝原假设,认为不是随机序列。利用公式(详见教材P47)n11n2121k1P(U2k)k(0.8)Nn1n11n21n11n21k1kkk1P(U2k1)NN(0.9)nn备择假设P值序列具有混合的倾向(游程大)Z的右尾概率序列具有聚类的倾向(游程小)Z的左尾概率序列是非随机的Z的较小的尾巴概率的两倍【例2-13】工厂的质量管理。原始资料详见教材P48。②在大样本时抽样分布的一种很好的近似是正态分布,这种正态分布的数学期望和方差分别为:E(U)2mn1var(U)2mn(2mnN)NN2(N1)将其标准化得:UE(U)N(0,1)Zvar(U)【例2-14】检验时间序列的平稳性。由时间序列的样本数据(上交所每日收盘综合指数),将原始数据原均值比较,从而得到符号,N=93,m=56,n=37,U=10。E(U)2mn145.56,var(U)2mn(2mnN)4.6N2(N1)N所以,UE(U)7.73Zvar(U)拒绝原假设,认为非随机,即原始序列非平稳。【例2-15】设X和Y分别具有分布函数F(x)和F(y),检验:H0:F(x)=F(y)。在我国的工业和商业企业中随机抽取22家企业进行资产负债率行业差异分析,其1999年底的资产负债率(%)如下:工业647655825982707561647383商业77808065939184918486两个行业的负债水平是否有显著性差异(0.05)。顺序12345678910111213141516171819202122负债55596164646570737576778080828283848486919193率组别111112111122211122222211111,2,1111,222,111,222222共有6各游程。如果原假设成立,则两个行业的负债水平的分布使相同的,将其混合后,应能较为充分、均匀地混合,游程数R应该比较大,反之当游程数R较小,则说明两个总体的分布可能不同。精选资料,欢迎下载。RunsTestTestValueaCases=TestValueTotalCasesNumberofRunsZAsymp.Sig.(2-tailed)a.MeanVAR000041.45451210226-2.384.017从生产线上抽取产品检验,是否应采用频繁抽取小样本的方法。在一个刚刚建成的制造厂内,质检员需要设计一种抽样方法,以保证质量检验的可靠性。生产线上抽取的产品可以分成两类,有瑕疵,无瑕疵。检验非用与受检产品数量有关。一般情况下,有毛病的产品如果是成群出现的,则要频繁抽取小样本,进行检验。如果有毛病的产品是随机产生的,则每天以间隔较长地抽取一个大样本。现随机抽了30件产品,按生产线抽取的顺序排列:0000111111111111110001111111检验瑕疵的产品是随机出现的吗?H0:有瑕疵的产品是随机出现H1:有瑕疵的产品是成群出现VAR00002TestValue1.0000Cases=TestValue23TotalCases30NumberofRuns4Z-3.811Asymp.Sig..000(2-tailed)例、假设某企业在过去15年中盈亏情况为:00001111111000111111(1=盈利,0=亏损)。改企业某一年盈利对以后是否亏损有无影响?ZU.512mn/NZ4.512713/202mn(2mnN)/N2(N2713(2
本文档为【非参数统计学讲义(第二章)讲稿】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
is_090279
暂无简介~
格式:doc
大小:282KB
软件:Word
页数:0
分类:企业经营
上传时间:2021-04-29
浏览量:20