首页 第六章 样本及抽样分布

第六章 样本及抽样分布

举报
开通vip

第六章 样本及抽样分布Inconel 若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。 ——南丁格尔 第6章​ 样本及抽样分布 容量为 的简单随机样本 是独立同分布的。 (1)​ 直方图: 目的:对于连续型随机变量的直方图来说,就是通过做出分组的直方图来模拟总体的概率密度曲线; 步骤: (1)找出所有样本数据的最大值 、最小值 ; (2)选取一个适当的区间:其下限 比最小的数据 稍小,其上限 比最大的数据 稍大,然后将这一区间分为 个小区间。通常,当样本容量 较大时 取10~20;当 时, 取5~6. 若 取得过大...

第六章  样本及抽样分布
Inconel 若想了解上帝在想什么,我们就必须学统计,因为统计学就是在量测他的旨意。 ——南丁格尔 第6章​  样本 保单样本pdf木马病毒样本下载上虞风机样本下载直线导轨样本下载电脑病毒样本下载 及抽样分布 容量为 的简单随机样本 是独立同分布的。 (1)​ 直方图: 目的:对于连续型随机变量的直方图来说,就是通过做出分组的直方图来模拟总体的概率密度曲线; 步骤: (1)找出所有样本数据的最大值 、最小值 ; (2)选取一个适当的区间:其下限 比最小的数据 稍小,其上限 比最大的数据 稍大,然后将这一区间分为 个小区间。通常,当样本容量 较大时 取10~20;当 时, 取5~6. 若 取得过大,则会出现某些小区间内频率为0的情况(一般应设法避免)。分点通常取必数据精度高一位,以免数据落在分点上; (3)计算组距 ; (4)对落在每个小区间内的数据计数,并计算其频率 ; (5)以 为底,以 为高依次做出小矩形;注意:这里 表示“单位长度上的频率”或“长度为1上的频率”,当样本容量足够大时,即为“单位长度上的概率”,也就是概率密度。也就是说每个小矩形的面积接近于概率密度曲线之下该小区间上的曲边梯形的面积。一般来说,直方图的外廓曲线接近于总体 的概率密度曲线。 (2)​ 箱线图 (1)分位数的概念 (2)修正箱线图(一般都是直接做修正箱线图) (3)采用中位数来描述数据集的中心趋势,而不使用数据集的平均值,因为后者受疑似异常值的影响较大。 (4)其他 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 见Page312~135,概率论与数理统计(第四版)。 经验分布函数 定义 设 是总体 的一个样本,用 , ,表示 中不大于 的随机变量的个数,则经验分布函数为 定理 对于任一实数 ,当 时, 以概率1一致收敛于函数 ,即 证明 对函数 而言,对于任一固定的自变量 , ,可以看做是 重贝努力试验,因为每次试验的结果只有两个: , , ,由本章开篇,我们知道 是相互独立的,所以单次试验服从(0-1)分布,其分布律为: 而由经验分布函数的定义知道, 是总体 的一个样本,所以其分布与总体分布相同,即对于任一固定的 , ( ),所以上述分布律又可写为: 而 是 重贝努力试验中事件 发生的次数,所以 . 从而,可知对于任意固定的 , . 由辛钦大数定理(注意:该定理是不要求 的方差存在的,虽然教材中证明的时候是在方差存在的情况下利用切比雪夫不等式完成的),有 即有 定理得证。 分析与讨论 (1)​ 证明的关键是将 分解为 个独立同分布(同总体 的分布)的(0-1)分布之和; (2)​ 从定义 ,可以看出函数 表示的是随机序列 中有百分之多少的随机变量满足条件: ,即“频率”的概念,显然,当 时,“频率”=“概率”,即 ( 表示的是在总体中,小于 的随机变量占所有随机变量的百分比)。 统计量 定义 设 是来自总体 的一个样本,则函数 称为统计量。( 中不含未知参数) 抽样分布 定义 统计量的分布称为抽样分布。显然,抽样分布时总体分布的近似。 分布(卡方分布) 分布(卡方分布)的定义 定义 设 相互独立,且都服从正态分布 ,则称随机变量: 所服从的分布是自由度为 的 分布,记为 .此处,自由度是指等式右边所包含的独立变量的个数。 分布的概率密度函数为(即概率 ) (2.2) 其中, ,在 时收敛,称为 函数,具有性质: ; ; ; 下面,我们来证明 分布具有上述概率密度函数。(概率论与数理统计,韩芝隆主编,Page118) 证明:如果按定义推导 变量的分布密度函数,将涉及 空间球域上的积分。为方便起见,这里采用数学归纳法进行证明。 当 时, , 。由第二章§5,例3知 的密度函数为 所以,在 时,式(2.2)成立。 设 时,式(2.2)成立,即 的密度函数为 时, 。由于 值是非负的,当 时, ,故它的概率密度函数 ;当 时,由于 与 是相互独立的(证明见概率论与数理统计(浙大第三版),Page94的定理),由卷积公式可知分布密度为 又因为要求概率密度函数的自变量大于0,所以对于上式中的第一项有: ;对于第二项有: ,即 ;即积分变量 。 故上式变为, 作变量代换,令 ,则 , 则上式变为 其中, 下面来求 。由概率密度的性质得 1= (这里 是常数,概率密度函数的自变量为 ,所以我们对 在 上积分,其结果应为1) 作变量代换,令 ,则 , 即有 所以(2.2)式对 也成立。定理得证。 性质1 分布(卡方分布)的性质 (1) 分布的可加性(概率论与数理统计(浙大第三版),Page97) 设 , 相互独立且分别服从参数为 , 的 分布(分别记成 , ), , 的概率密度分别为 证明 服从参数为 的 分布,即 证 因为 ,即随机变量 的可能取值是 ,所以 的所有可能取值均大于等于0. 我们先就本例的具体情况讨论卷积公式 中的积分限的定义,设随机变量 ,其概率密度为 .根据 分布的定义, 的可能取值大于0; 的可能取值大于0;所以 的可能取值大于0,即当 时, 。 又 , 所以对应于卷积公式中,只有在 时,函数 ,所以 作变量代换,令 作变量代换,令 ,则 , 则上式变为 其中 (5.5) 下面来求 。由概率密度的性质得 作变量代换,令 ,则 , 即有 (5.6) 服从参数为 的 分布,即 .定理得证。 上述结论可以推广到 个相互独立的服从 分布的随机变量之和的情况。即若 相互独立,且 服从参数为 的 分布,即 ,则 .这一性质称为 分布的的可加性。(证 因为 相互独立,所以 与 相互独立,依次应用上面 的结果即得该结论。) 对于教材中定义的 分布,是这里的一种特例: , , ,所以这时,有 ,其中, , Beta函数 上面证明过程中的积分 称为Beta函数。根据(5.5),(5.6)知Beta函数与 函数有如下关系 函数: ,在 时收敛 分析与讨论 (1)​  按照 分布的定义( , 相互独立,且都服从正态分布 ),其概率密度函数为: 而在讨论 分布可加性时出现了这样的形式: (ⅰ)第二种是更普遍的(或称为广义的) 分布?其对应的 中的 ? (ⅱ)这时的随机变量服从 ,当 , 时的特殊情况极为教材中定义的 分布 ? (2)​ 正态分布是自然界中最常见的一类概率分布,例如测量的误差,人的生理尺寸:身高,体重等都近似服从正态分布。常见的问题是关于这些正态随机变量的平方以及平方和的概率分布问题。 例如在统计物理中,若气体分子速度是随机向量 ,各分量相互独立,且均服从 ,求该分子的动能 的分布律。 要求 的分布,自然首先就要知道 中的随机变量 的概率分布。对于这种在实际中经常碰到的随机变量的平方和问题,我们自然希望对能够对其加以总结,卡方分布就是在类似的实际背景下提出的。 (3)​ 在实际中我们往往会遇到这样的问题,要求有,关随机变量的函数的概率分布. 例如在无线电接收中,某时刻接收到的信号是一个随机变量 ,若我们把这个信号通过平方示波器,则输出的信号为 通常需要求出 的概率分布. 本节介绍一些最常见的统计分布. 性质2 分布的数学期望和方差 (1) ; (2) 证明 因为 ,故 ; ;(分布积分法;再利用结果: ; , ) 其中, 其他见概率论与数理统计(第四版),page139. 定理得证。 性质3 分布的极限分布是正态分布 设 ,则对任意 有, 证明 由假设和定义知 ,其中 独立,且每个 ,因而 独立同分布,且 ; 由中心极限定理得 ,即 上式表明,当 很大时, ,进而, 。这 说明 关于失联党员情况说明岗位说明总经理岗位说明书会计岗位说明书行政主管岗位说明书 分布的极限分布是正态分布。 性质4 设 独立,且都服从正态分布,即 ,则 证明 令 ,知 ,由 独立,且 为连续函数,知 相互独立; 即 ,由 分布的定义,知 。 定理得证。 性质5 设 独立,且都服从正态分布,即 ,样本均值 ,样本方差 ,则有 ① ; ② 与 相互独立 证明 见概率论与数理统计(第四版),Page145. 分布(学生分布) 历史由来 (1)​ 传统数学V.S.概率及统计学 大样本V.S.小样本 传统数学V.S.概率及统计学 关于统计学客观基础问题的争论,从来未停止过。从古希腊思想家那里开始到现在,一直存在两种对立的意见。一种意见认为,世界的本质是确定的,随机性只是由于人们认识的局限性而产生的噪音,他们总是将所有现象都解释成无微不至的事物秩序所产生的结果,在事物的重复出现中会因很多细节而产生差异,但这种差异只是目前人们还不了解这些细节而已。统计学只是对随机性差异的度量,是主观内容的范畴,在客观世界中没有什么对应他们的东西。虽然,统计学在科学研究中起着重要作用,但这个作用只是在认识过程中由相对真理到绝对真理的迈进中的作用。因而,这种意见认为,只有数学才能牢固把握客观世界的所作所为,能瓦解玄秘并代之以规律和秩序。而统计学则是由于人力所不及不得已而为之的方法,其基础不是客观的,只是人们知识不足和信息不完备的代名词,虽然统计学是我们人类自己发明的探索客观规律最好用的方法,但数学才是上帝的宠儿,统计学只是人类的智慧。爱因斯坦给波尔的一封信中有这样一句名言:“你信仰掷骰子的上帝,我却信仰客观存在的世界中完备的定律和秩序”。直到20世纪初,科学界一直是这种观点,即机械决定论占统治地位。牛顿力学被称为科学思想的典范,学者们总是力图使科学规律符合严格确定性的理想。 机械式的宇宙观开始动摇,一些企图寻找生物学定律和社会学定律的努力也徒劳无功,甚至有些传统学科领域,如物理学和化学当时所用的那些定律,也被认为仅仅是粗略的逼近。科学家从理论上和实践上都充分证实了严格决定论对描述客观现象的不适应性和不可归结性。布朗运动、混沌动力学、量子力学、耗散结构都证明了经典决定论已逐渐向统计决定论转移。人们的科学观念发生了新的变化。自然和社会中不 规则 编码规则下载淘宝规则下载天猫规则下载麻将竞赛规则pdf麻将竞赛规则pdf 、不连续、不稳定、非平衡的领域不断扩大,其中充满了涌现、转化、意外和机遇。科学探索也达到了这样的境界:科学家对客观事物的描述和预测的精度已不能通过改进操作技巧,提高测量的精密度加以改善,他们发现根本没有可能发现严格的因果依赖性,可以找到的只是统计的因果规律。 传统的数学要求凡是必须能够给出精准而确切的表达式,才称得上数学;但是概率论与统计不同,首先后者承认这个世界上有些事情在发生之前是无法确定其将来的结果的,即便知道它在发生之前的所有状态或方程,但这门科学给出了这样一种可能:我不能确定你将会产生哪种结果,但是我会明确无误地给出取得每一种结果的概率。 大样本V.S.小样本 大样本V.S.小样本的故事与传统数学V.S.概率及统计学的关系发展如出一辙,在“万能的正态分布”占绝对统治的学术界,在大家都认为搞小样本研究是与统计精神相违背的、危险的倾向的大气候下,Gosst站了出来,他的研究成果证明了对于小样本的统计量,也是可以给出精确解得,只不过需要再多考虑一个参数:样本容量 而已。他添补了中心极限定理中在 不是很大时,概率值的精确求解表达式。他给了我们这样的启发:在数学上,当一些量无法精确给出求解表达式的时候,可以给出近似的求解公式,但是也要给出这种方法的误差界;换一种思路,之所以不能精确给出求解公式,是因为当前的方法中缺少一些必要的自变量,接下来的工作便是找到它们,并求出新的表达式。 (2)​ Gosset的发现(高等数理统计,Page15) 插曲 为了叙述上的方便,在这里我们先给出 分布的定义: 定义 设 , ,且 , 相互独立,则称随机变量 服从自由度为 的 分布,记为 . 分布又称学生氏(Student)分布。 分布的概率密度函数 酿酒厂的例子 定理 设 是来自总体 的样本,样本均值为 ,样本方差为 ,则有 证明 因为由教材中的定理一,有 ,又 ,且已经证明 与 相互独立,故当 固定, 时, , ,函数 , 连续,所以有 与 相互独立。 由 分布的定义知 即有 定理得证。 根据上面的定理,可以看出,对于下属情况: 1​ 总体的数学期望未知; 2​ 总体的方差未知; 3​ 我们能取到的(或方便取到的)样本为小样本。 我们可以根据上述公式,对样本均值 与总体(当然要求总体为服从正态分布)的数学期望 之间的差异范围给出相应的概率值,而且整个概率值时精确地,即 即有 适当选取 的值,即可精确求出概率 . 分布的另一个应用 由定理四,知道,当 时,有 ,其中, 称为混合样本方差。 根据上面的定理,同样可以看出,对于下属情况: 4​ 两个总体的数学期望未知; 5​ 两个总体的方差未知,但可以确定其方差相等; 6​ 我们能取到的(或方便取到的)样本为小样本。 上述公式提供了这样一个可能:对于来自两个母体均为正态总体的样本,我们若想通过比较两个样本的均值,即研究两个不同样本的均值的差异,从而将这种样本的均值差异推广到两个总体的均值(数学期望)的差异的风险有多大。 比如,设总体为2010年某大学的一年级学生,我们想研究所有这些大一新生的男生和女生的身高的平均差异,一般不可能全部测量再取平均,在比较,因为总人数会很大(一般为700~1200人左右),所以采用抽样的办法,假设抽样数位 ,测出所有被抽到的学生的身高,求出两组样本的均值 , 代入上述公式,即可求得采用20个男生与20个女生的平均身高的差异来代替总体(700~1200人)中的男生与女生平均身高的差异小于 的概率(即在一定置信度下的,用两个样本的均值差逼近两个总体的均值差的方法)。 分布(学生分布)的性质 性质1 分布的概率密度函数,在样本量 充分大时,近似的为标准正态分布的概率密度函数,而当 时, 分布的概率密度函数的极限为标准正态分布的概率密度函数。(高等数理统计,Page14) 证明 利用Stirling公式可以算得 , 另外,由常用的极限公式可得 所以, 定理得证。这也验证了中心极限定理的正确性。 性质2 分布的数字特征 ; 其他,参见概率论 第二册 数理统计 第一分册(复旦大学),Page34,定理2. 分析与讨论 (1)​ 在概率论与数理统计(第四版),Page122关于独立同分布的随机变量序列的中心极限定理中做了这样的论述:这就是说,均值为 ,方差为 的独立同分布的随机变量 的算术平均 ,当 充分大时,近似的服从 ,这一结果是数理统计中大样本推断的基础。(即: );以上指的是任何类型的随机变量;但是对于正态随机变量序列,在上式中不用 ,即小样本即成立,但如果 未知,用 代替 则会产生误差,只有当 时,误差等于0;实际上,可以认为 ,Gosset找到了M的概率密度函数 。即这个服从M分布的随机变量序列不是正态分布,但根据中心极限定理,当 时, 。 (2)​ 那小样本的情况下如何处理呢?但没有人很清楚地告诉过我们:样本量的“大”和“小”的界限在哪里?这时如果还用上述公式,即 ,肯定是有误差的。而且这里的关于总体的数学期望 和方差 一般我们是无法准确得到的,这时的 ,即 是不会太服从 的。而Gosset用样本的方差来代替总体的方差代入上述公式(因为在他的试验里,总体方差 也是未知的),在样本数 很小时( )构造了如下统计量: ,发现它服从一种新的分布,这种分布可以在 很小、 未知的情况下,给出 的精确分布。 (3)​ 中心极限定理具有很深刻的理论意义;而Gosset开创的小样本统计分析给出了中心极限定理中当 不是很大时的精确分布,在实际 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 中非常好用。二者的关系就如好莱坞的大牌明星与小郡上的小家碧玉。 (4)​ 我们已经证明了 ,根据经验,当样本数小于30时,求解 用 分布;当样本数大于30时,用正态分布。 (5)​ 统计量的分布称为抽样分布。在使用统计量进行统计推断时常需知道它的分布。当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般来说是困难的。因为正态分布的重要性及我们队正态分布的研究的详尽性,所以教材中介绍的夜都是来自正态总体的统计量的分布。今后,我们将看到这些分布在数理统计中有重要的应用。 (6)​ 可以将教材中关于 分布的定义可以看做是解决 的精确分布问题的引理; (7)​ 同理, 分布与 分布也都是关于小样本统计的分布,其公式中都含有样本容量的信息 ;前面我们已经证明了,对于 分布、 分布,当 时,其极限是正态分布; (8)​ 在1920~1930年,Fisher R.A. 提出了许多重要的统计方法,发展了正态总体下各种统计量的抽样分布; (9)​ 三大分布的共同特征: ​ 统计量均是来自正态母体 的总体; ​ 是在中心极限定理在 较小时的精确解; ​ 是统计意义上的概率分布(区别于概率论中的二项分布、泊松分布,正态分布等); ​ 其概率密度函数中均有 作为自变量。 (10)​ 整个第六章的脉络:通过样本研究(逼近)(正态)总体,并明确给出这种逼近的Risk有多大(即样本的参数,如 , 与总体的相应的参数 , 的差小于一个给定的数的概率) 通过样本或统计量(因为我们的资源有限)研究总体为正态分布(因为它在自然界中的普遍性和重要性)的随机变量,既然是对正态总体进行研究,那最主要的问题就是搞清楚总体的数学期望和方差,但由于我们一般只能通过来自正态母体的样本的参数( , )来进行对总体的各项参数(因为我们知道它的分布,接下来的任务就是确定公式中的参数而已)的逼近,那就需要给出这种逼近的风险有多大;于是根据这种逼近的表达式: , 开发出了几个主要的统计分布: , , 。 本章最精彩、最有思想的部分是在第四节《正态总体的样本均值与样本方差的分布》,这是整个问题的出发点,同时也是终点;前面的三大分布只不过是为此做理论铺垫。即在第四节中所涉及的研究中,需要用到什么样的分布(无论这种分布多么奇形怪状)的时候,就回头求出该种分布的概率密度为其所用。 为了搞定 的问题,Gosset开创了小样本研究的领域,引进了 分布作为工具,同时, 分布也搞定了 的问题;Fisher用 分布搞掂了 的问题;而为了搞掂 的问题,Fisher又引进了 分布作为工具;综述,Gosset搞定了用小样本的均值对正态总体的期望的估计;而很自然地,Fisher想到了处理对于正态总体分布的另一个参数,即方差 的估计。而 分布作为 分布与 分布的基础,以及其在统计物理学中的地位,最先被引进。教材中为了编写上的容易,对该故事采用了倒叙的手法(Guassian Style)。 (11)​ 对于样本均值 与总体的数学期望 的有无显著性差异的检验( 分布的应用) ① (即正态检验): ,其理论基础来自中心极限定理,具体地说是来自“独立同分布的中心极限定理”,那就需要满足如下的条件并具有特点: ​ 的 充分大或 (到底多大算充分大呢?根据 分布与标准正态分布概率密度函数的比较,一般 时,二者比较接近,工程上可以接受); ​ 总体的方差 为已知; ​ 给出的概率值为近似解; (即正态检验)属于大样本研究范畴的成果(代表人物老皮尔森,K. Pearson); ② (Gosset检验) ,其理论基础来自 分布,其特点为: ​ 对样本数 的大小无要求; ​ 不需要知道总体的方差 ; ​ 给出的概率值为精确解; (Gosset检验)属于小样本研究范畴领域的成果(代表人物Gosset),当然该结果也适用于大样本的情况;。在minitab中也成为one-sample的t检验。 (12)​ 对来自两个总体的样本的均值的差与总体的数学期望的差的显著性检验( ) ① (即正态检验): ,其理论基础来自中心极限定理,具体地说是来自“独立同分布的中心极限定理”,那就需要满足如下的条件并具有特点: ​ 的 充分大或 (到底多大算充分大呢?根据 分布与标准正态分布概率密度函数的比较,一般 时,二者比较接近,工程上可以接受); ​ 两个总体的方差 , 为已知,但不要求二者相等(这一点与检验的要求不同); ​ 给出的概率值为近似解; 同样,这里的 (即正态检验)属于大样本研究范畴;在minitab中也成为two-sample的t检验。 补充引理 证明 由定理一知 , 又 所以, ,即有 引理得证。 ② (Gosset检验) ,其理论基础来自 分布,其特点为: ​ 对样本数 的大小无要求 ​ 不需要知道总体的方差 ,但要求 ​ 给出的概率值为精确解 同样,这里的 属于小样本研究范畴,当然它也适用于大样本的情况; (13)​ 对于样本方差 与总体的方差 有无显著性差异的检验( 分布的应用) ① ( 检验): ,其理论基础来自 分布( ),其特点为: ​ 对样本数 的大小无要求 ​ 不需要知道总体的方差 及均值 ; ​ 给出的概率值为精确解 同样,这里的 属于小样本研究范畴,当然它也适用于大样本的情况。 (14)​ 对来自两个正态总体的样本的样本方差的比值与两个总体之间的方差的比值的比值的显著性检验( )( 分布的应用) ① ( 检验): ,其理论基础来自 分布( ),其特点为: ​ 对样本数 的大小无要求 ​ 不需要知道总体的方差 及均值 ; ​ 给出的概率值为精确解 同样,这里的 属于小样本研究范畴,当然它也适用于大样本的情况; 注意:以上所有检验方法都假定所有样本的母体(即所有总体)服从正态分布! 由此可见,三大分布只是工具而已,我们的最终目的是求得在一定置信度下通过有限的样本信息对总体,尤其是正态总体的两个参数 进行估计与检验。三大分布的概率密度函数的推导、部分性质(如期望、方差、概率密度函数的极限等)的推导都超出了初等概率论的范围。 分布的性质 性质1 分布的分为点性质 证明 见概率论与数理统计(第四版),Page142. 性质2及其他只要性质 正态总体的样本均值与样本方差的分布 引理(见下图)(概率论与数理统计(第四版),Page142) 证明 ① ; ② ; ③ 定理一的证明 令 ,则根据正态随机变量的线性组合的公式,有 再令 ,由正态分布的线性函数的分布公式有, (设随机变量 ,则 ) 即有 ,这是 (即正态检验)的理论基础。 定理二中关于 与 相互独立的推广(概率论与数理统计(第四版),Page147)
本文档为【第六章 样本及抽样分布】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_350625
暂无简介~
格式:doc
大小:2MB
软件:Word
页数:0
分类:其他高等教育
上传时间:2011-03-17
浏览量:15