bootstrap参数自助法

您所在的位置:网站首页 bootstrap参数估计 bootstrap参数自助法

bootstrap参数自助法

#bootstrap参数自助法| 来源: 网络整理| 查看: 265

Bootstrap(自助法) 学习笔记

参考资料: 1.Bootstrapping. 2.bootstrap自采样再理解. 3.统计学中的Bootstrap方法介绍及其应用. 4.统计量的标准误的估计(bootstrap方法). 5.总结:Bootstrap(自助法),Bagging,Boosting(提升)

1.析意

这里讨论的Bootstrap是一种再抽样的统计方法,不是Bootstrap工具包。英语Bootstrap从字面意思翻译是靴带,来自短语:“pull oneself up by one′s bootstrap”,18世纪德国文学家拉斯伯(Rudolf Erich Raspe)的小说《巴龙历险记(或译为终极天将)》(Adventures of Baron Munchausen) 记述道:“巴龙掉到湖里沉到湖底,在他绝望的时候,他用自己靴子上的带子把自己拉了上来。”现意指不借助别人的力量,凭自己的努力,终于获得成功。在这里“Bootstrap”法是指用原样本自身的数据再抽样得出新的样本及统计量,根据其意现在普遍将其译为“自助法”或“自举法”。Bootstrap方法最初由美国斯坦福大学统计学教授Efron在1977年提出。作为一种崭新的增广样本统计方法,Bootstrap方法为解决小规模子样试验评估问题提供了很好的思路。Bootstrap方法提出之后的10年间,统计学家对它在各个领域的扩展和应用做了大量研究,到了20世纪90年代,这些成果被陆续呈现出来,而且论述更加全面、系统。

2.基本原理 2.1初步理解

在统计的世界,我们面临的总是只有样本,Where there is sample, there is uncertainty,正因为不确定性的存在,才使统计能够生生不息。一般情况下,总体永远都无法知道,我们能利用的只有样本,现在的问题是,样本该怎样利用呢?

Bootstrap的奥义就是:既然样本是抽出来的,那我何不从样本中再抽样(Resample)?Jackknife的奥义在于:既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何?Bootstrap的一般的抽样方式都是“有放回地全抽”,意思就是抽取的Bootstrap样本量与原样本相同,只是在抽样方式上采取有放回地抽,(其实样本量也要视情况而定,不一定非要与原样本量相等)这样的抽样可以进行B次,每次都可以求一个相应的统计量/估计量,最后看看这个统计量的稳定性如何(用方差表示)。Jackknife的抽样痕迹不明显,但主旨也是取样本的样本,在作估计推断时,每次先排除一个或者多个样本点,然后用剩下的样本点求一个相应的统计量,最后也可以看统计量的稳定性如何。

统计推断是从样本推断相应的总体, 有参数法和非参数法。早期的统计推断是以大样本为基础的。自从英国统计学家威廉·戈塞特(Willam Gosset)在1908年发现了t分布后,就开创了小样本的研究。费希尔(Fisher)在1920年提出了似然(likelihood)的概念,一直被认为是高效的统计推断思维方法。半个多世纪以来,这种思维一直占有主导地位,统计学家研究的主流就是如何将这种思维付诸实践,极大似然函数的求解是这一研究的关键问题。 (以上引用的是谢益辉博士关于Bootstrap 和 Jackknife基本思想的论述)

2.2核心思想

在这里插入图片描述

如果不知道总体分布(或叫理论分布),那么,对总体分布的最好猜测便是由样本数据提供的(经验)分布。 自助法的要点是:①假定观察值便是总体;②由这一假定的总体抽取样本,即再抽样。

由原始数据经过重复有放回抽样所获得的与原始数据集含量相等的样本称为再抽样样本(resamples)或自助样本(bootstrapsamples)。如果将由原始数据集计算所得的统计量称为观察统计量(observed statistic),那么由再抽样样本计算所得的统计量称为自助统计量(bootstrap statistic)。自助法的关键思想是假设自助统计量与观察统计量间的关系等同于观察统计量与真值间的关系成立,可表示为: 自助统计量::观察统计量观察统计量::真值 其中,“::”表示二者间的关系,“”表示等价于。也就是说,通过对自助统计量的研究,就可以了解有关观察统计量与真值的偏离情况。因此,可以得知,Bootstrap是基于统计假设的思想实现的,在实际运用中,假设的成立与否直接影响Bootstrap的效果。 Bootstrap是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下:   (1) 采用再抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。   (2) 根据抽出的样本计算给定的统计量T。   (3) 重复上述N次(一般大于1000),得到N个统计量T。   (4) 计算上述N个统计量T的样本方差,得到统计量的方差。   其中的再抽样是有返还的抽样(sampling with replacement)方式。    Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。

Jackknife: 和上面要介绍的Bootstrap功能类似,只是有一点细节不一样,即每次从样本中抽样时候只是去除几个样本(而不是抽样),就像小刀一样割去一部分。

3.Bootstrap的数学表达

在这里插入图片描述 其中等号上面一个小三角号表示定义。 在这里插入图片描述

4.Bootstrap的通俗表达

假设我有一个鱼塘,现在我想知道里面到底有多少条鱼。假设里面实际有1000条,但我并不知道这个数据。那我到底要怎么解决这个问题呢?(假设统计期间鱼的数量没有发生变化)

我可以先把鱼塘封闭,排除干扰因素。然后捞10条鱼上来并做好标记(假设标记不会损坏,也不会脱落),再把它们放回鱼塘。等待一个晚上甚至一天,保证鱼群充分混合,保证是随机抽样。然后开始捞鱼,每次捞100条,记录有标记的鱼的数量以及比例,再放回去,再等一晚,再捞十条、记录数据……重复整个过程n次,建立分布。

若,我第一次捞的鱼中有12条鱼被标记,第二次捞的有9条鱼被标记,第10次有两条……设置信区间为95%,统计后发现每次捕鱼平均在10条左右有标记,所以,我们可以大致推测出鱼塘有1000条左右。在小样本的时候,bootstrap效果才较好。如果是大样本,bootstrap的效果就不怎么好,比如你想统计海里有多少条鱼,很明显捞鱼标记的方法就不适用。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3