统计学bootstrap

统计学bootstrap上节课内容总结统计推断基本概念统计模型：参数模型与非参数模型统计推断/模型估计：点估计、区间估计、假设检验估计的评价：无偏性、一致性、有效性、MSE偏差、方差、区间估计CDF估计：点估计、偏差、方差及区间估计统计函数估计点估计区间估计/标准误差影响函数BootstrapBootstrap也可用于偏差、置信区间和分布估计等计算本节课内容重采样技术（resampling）Bootstrap刀切法（jackknife）引言是一个统计量，或者是数据的某个函数，数据来自某个未知的分布F，我们想知道的某些性质（如偏差、方差和置...

上节课内容总结统计推断基本概念统计模型：参数模型与非参数模型统计推断/模型估计：点估计、区间估计、假设检验估计的评价：无偏性、一致性、有效性、MSE偏差、方差、区间估计CDF估计：点估计、偏差、方差及区间估计统计函数估计点估计区间估计/ 标准误差影响函数BootstrapBootstrap也可用于偏差、置信区间和分布估计等计算本节课内容重采样技术（resampling）Bootstrap刀切法（jackknife）引言是一个统计量，或者是数据的某个函数，数据来自某个未知的分布F，我们想知道的某些性质（如偏差、方差和置信区间）假设我们想知道的方差如果的形式比较简单，可以直接用上节课学习的嵌入式估计量作为的估计例：，则，其中，其中问题：若的形式很复杂（任意统计量），如何计算/估计？Bootstrap简介Bootstrap是一个很通用的工具，用来估计标准误差、置信区间和偏差。由BradleyEfron于1979年提出，用于计算任意估计的标准误差术语“Bootstrap”来自短语“topulloneselfupbyone’sbootstraps”（源自西方神话故事“TheAdventuresofBaronMunchausen”，男爵掉到了深湖底，没有工具，所以他想到了拎着鞋带将自己提起来）计算机的引导程序boot也来源于此意义：不靠外界力量，而靠自身提升自己的性能，翻译为自助/自举1980年代很流行，因为计算机被引入统计实践中来Bootstrap简介Bootstrap：利用计算机手段进行重采样一种基于数据的模拟（simulation）方法，用于统计推断。基本思想是：利用样本数据计算统计量和估计样本分布，而不对模型做任何假设（非参数bootstrap）无需标准误差的理论计算，因此不关心估计的数学形式有多复杂Bootstrap有两种形式：非参数bootstrap和参数化的bootstrap，但基本思想都是模拟重采样通过从原始数据进行n次有放回采样n个数据，得到bootstrap样本对原始数据进行有放回的随机采样，抽取的样本数目同原始样本数目一样如：若原始样本为则bootstrap样本可能为…计算bootstrap样本重复B次，1.随机选择整数，每个整数的取值范围为[1,n]，选择每个[1,n]之间的整数的概率相等，均为2.计算bootstrap样本为：Web上有matlab代码：BOOTSTRAPMATLABTOOLBOX,byAbdelhakM.ZoubirandD.RobertIskander,http://www.csp.curtin.edu.au/downloads/bootstrap_toolbox.htmlMatlab函数：bootstrpBootstrap样本在一次bootstrap采样中，某些原始样本可能没被采到，另外一些样本可能被采样多次在一个bootstrap样本集中不包含某个原始样本的概率为一个bootstrap样本集包含了大约原始样本集的1-0.368=0.632，另外0.368的样本没有包括模拟假设我们从的分布中抽取IID样本，当时，根据大数定律，也就是说，如果我们从中抽取大量样本，我们可以用样本均值来近似当样本数目B足够大时，样本均值与期望之间的差别可以忽略不计模拟更一般地，对任意均值有限的函数h，当有则当时，有用模拟样本的方差来近似方差模拟怎样得到的分布？已知的只有X，但是我们可以讨论X的分布F如果我们可以从分布F中得到样本，我们可以计算怎样得到F？用代替（嵌入式估计量）怎样从中采样？因为对每个数据点的质量都为1/n所以从中抽取一个样本等价于从原始数据随机抽取一个样本也就是说：为了模拟，可以通过有放回地随机抽取n个样本（bootstrap样本）来实现Bootstrap：一个重采样过程重采样：通过从原始数据进行有放回采样n个数据，得到bootstrap样本模拟：为了估计我们感兴趣的统计量的方差/中值/均值，我们用bootstrap样本对应的统计量（bootstrap复制）近似，其中例：中值X=(3.12,0,1.57,19.67,0.22,2.20)Mean=4.46X1=(1.57,0.22,19.67,0,0,2.2,3.12)Mean=4.13X2=(0,2.20,2.20,2.20,19.67,1.57)Mean=4.64X3=(0.22,3.12,1.57,3.12,2.20,0.22)Mean=1.74Bootstrap方差估计方差：其中注意：F为数据X的分布，G为统计量T的分布通过两步实现：第一步：用估计插入估计，积分符号变成求和第二步：通过从中采样来近似计算Bootstrap采样+大数定律近似Bootstrap：方差估计Bootstrap的步骤：1.画出2.计算3.重复步骤1和2共B次，得到4.（大数定律）（计算boostrap样本）（计算boostrap复制）例：混合高斯模型：假设真实分布为现有n=100个观测样本：直接用嵌入式估计结果：例：混合高斯模型（续）用Bootstrap计算统计量的方差：1.得到B=1000个bootstrap样本，其中2.计算B=1000个bootstrap样本对应的统计量的值3.与直接用嵌入式估计得到的结果比较：Bootstrap：方差估计真实世界：Bootstrap世界：发生了两个近似近似的程度与原始样本数目n及bootstrap样本的数目B有关Bootstrap：方差估计在方差估计中，可为任意统计函数如均值（混合高斯模型的例子）中值（伪代码参见教材）偏度（例子参见教材）极大值（见后续例子）…除了用来计算方差外，还可以用作其他应用CDF近似、偏差估计、置信区间估计CDF近似令为的CDF则的bootstrap估计为偏差估计偏差的bootstrap估计定义为：Bootstrap偏差估计的步骤为：得到B个独立bootstrap样本计算每个bootstrap样本对应的统计量的值计算bootstrap期望：计算bootstrap偏差：例：混合高斯模型：标准误差估计在标准误差估计中，B为50到200之间结果比较稳定偏差估计B1020501005001000100000.13860.21880.22450.21420.22480.22120.2187B1020501005001000100005.05874.95515.02444.98834.99455.00354.99960.0617-0.04170.0274-0.0087-0.00250.00640.0025Bootstrap置信区间正态区间：简单，但该估计不是很准确，除非接近正态分布百分位区间：，对应的样本分位数还有其他一些计算置信区间的方法如枢轴置信区间：例：Bootstrap置信区间例8.6：Bootstrap方法的发明者BradleyEfron给出了下列用语解释Bootstrap方法的例子。这些数据是LAST分数（法学院的入学分数）和GPA。计算相关系数及其标准误差。LSAT(Y)576635558578666580555661651605653575545572594GPA(Z)3.393.302.813.033.443.073.003.433.363.133.122.742.762.882.96例8.6（续）相关系数的定义为：相关系数的嵌入式估计量为：Bootstrap得到的相关系数插入估计的标准误差为：标准误差趋向稳定于B2550100200400800160032000.1400.1420.1510.1430.1410.1370.1330.132例8.6（续）当B=1000时，的直方图为下图，可近似为从的分布采样95%的正态区间为：95%的百分点区间为：当大样本情况下，这两个区间趋近于相同非参数bootstrap过程总结对原始样本数据进行重采样，得到B个bootstrap样本，其中b=1,…,B对每个bootstrap样本，计算其对应的统计量的值（bootstrap复制）根据bootstrap复制，计算其方差、偏差和置信区间等称为非参数bootstrap方法，因为没有对F的先验（即F的知识仅从样本数据中获得）非参数bootstrap统计量/统计函数：没有对F的先验，F的知识仅从样本数据中获得（CDF估计），统计函数的估计变为嵌入式估计真实世界：Bootstrap世界：如方差计算中，发生了两个近似近似的程度与样本数目n及bootstrap样本的数目B有关Bootstrap的收敛性例：混合高斯模型：n=100个观测样本：4次试验得到不同B的偏差和方差的结果Bootstrap的收敛性B的选择取决于计算机的可用性问题的类型：标准误差/偏差/置信区间/…问题的复杂程度Bootstrap失败的一个例子，我们感兴趣的统计量为的CDF用G表示则的pdf为Bootstrap失败的一个例子（续）对非参数bootstrap，令则所以，非参数bootstrap不能很好地模拟真正的分布Bootstrap失败的一个例子（续）假设样本数目n=10，样本为，取参数X=(0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637)非参数bootstrap复制的直方图B=1000，最高峰为理论结果：Bootstrap失败的一个例子为什么失败？EDF不是真正分布的很好近似为了得到更好的结果，需要F的参数知识或者的平滑性参数化的bootstrap表现很好，能很好模拟真正的分布Bootstrap的收敛性给定n个IID数据，要求当，收敛于F为的嵌入式估计统计函数的平滑性平滑函数：均值、方差…不平滑函数：数据的一个小的变化会带来统计量的很大变化顺序统计量的极值（极大值、极小值）参数化的bootstrap真实世界：Bootstrap世界：与非参数的bootstrap相比：F的先验用参数模型表示多了一个步骤：根据数据估计参数（参数估计），从而得到不是经验分布函数EDF重采样：从估计的分布采样（产生随机数）F的先验例：非参数bootstrap失败的例子，取参数，假设样本数目n=10，样本为X=(0.5729,0.1873,0.5984,0.2883,0.8722,0.4320,0.4896,0.7106,0.2754,0.7637)在参数bootstrap中：F的先验：根据数据估计F中的参数：得到F的估计：从分布产生B=1000个样本，得到B个,直方图如右图的分布为真正的分布参数化的bootstrap当F为参数模型时，参数化的bootstrap也可用于计算方差、偏差、置信区间等如计算方差：0.根据数据估计f的参数，得到f的估计1.抽取样本2.计算3.重复步骤1和2B次，得到4.参数bootstrapVs.非参数的bootstrapF的先验参数bootstrap中利用了分布F的先验，表现为一个参数模型，因此多了一个步骤，估计F模型中的参数。当先验模型正确时，参数bootstrap能得到更好的结果而非参数bootstrap不利用F的先验知识就能得到正确的标准误差（在大多数情况下）参数bootstrap能得到与Delta方法（计算变量的函数的方差）相当的结果，但更简单重采样参数bootstrap中，通过从分布中产生随机数，得到bootstrap样本，得到的样本通常与原始样本不重合非参数bootstrap中，通过对原始样本进行有放回采样实现对的采样，每个bootstrap样本都是原始样本集合的一部分二者相同的是模拟的思想Bootstrap（参数/非参数）不适合的场合小样本（n太小）原始样本不能很好地代表总体分布Bootstrap只能覆盖原始样本的一部分，带来更大的偏差结构间有关联如时间/空间序列信号因为bootstrap假设个样本间独立脏数据奇异点(outliers)给估计带来了变化刀切法（jackknife）引言Bootstrap方法并不总是最佳的。其中一个主要原因是bootstrap样本是从产生而不是从F产生。问题：能完全从F采样或重采样吗？如果样本数目为n，答案是否定的！若样本数目为m(m

                    本文档为【统计学bootstrap】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

统计学bootstrap

你可能还喜欢