置信区间(confidence interval) |
您所在的位置:网站首页 › 置信区间的理解是什么 › 置信区间(confidence interval) |
要理解置信区间,就要从统计学最基本最核心的思想去思考,那就是用样本估计总体。 置信水平(Confidence level)是指总体参数值落在样本统计值某一区内的概率; 而置信区间(confidence interval)是指在某一置信水平下,样本统计值与总体参数值间误差范围。 置信区间越大,置信水平越高。 一、置信区间的概念 1.1 置信区间置信区间,就是一种区间估计 先来看看什么是点估计,什么是区间估计。 1.1.1 点估计与区间估计以前很流行一种刮刮卡: 那么我们起码有两种策略来刮奖: 点估计:买一张,这就相当于你猜测这一张会中奖区间估计:买一盒,这就相当于你猜测这一盒里面会有某一张中奖很显然区间估计的命中率会更高(当然费用会更高,因为风险降低了)。 %%% 当我们做某个试验时,没有办法完全消除误差,这种情况下,我们会给结果一个可接受的误差范围,统计学上叫置信区间,置信区间是随机变量,它根据所抽取的样本决定,每抽取一个样本就会有一个置信区间。 置信区间是指由样本统计量所构造的总体参数的估计区间。 置信区间又称估计区间,是用来估计参数的取值范围的。常见的52%-64%,或8-12,就是置信区间(估计区间)。 置信区间展现的是这个参数的真实值落在测量值(推测值)的周围的可信程度。 接下来,我们看看置信区间是如何进行区间估计的。 1.1.2 置信区间我们通过对人类身高的估计来讲解什么是置信区间。 1.1.2.1 上帝视角对于人类真实的平均身高,我们是没有办法知道的,因为几乎不可能把每个人都统计到。 但这个数据肯定是真实存在的,我们可以说,上帝知道。 在这里我们引入了上帝视角,即上帝看到的人类身高的真实分布。 作为愚蠢的人类,我们只能在人群中抽样统计: 置信区间,提供了一种区间估计的方法。
这就好像用渔网捞鱼,我知道一百次网下去,大约会有95次网到我想要的鱼,但是我并不知道是不是现在这一网:
总结一下: 置信区间要求估计量是个常数 95 % 95\% 95%也被称为置信水平,是统计中的一个习惯,可以根据应用进行调整 1.2 置信水平置信区间包含总体平均值的概率 又称 置信度 eg:95%的置信水平表示:抽取的100个样本,有100个置信区间,其中有95个置信区间可能包含总体的真实平均值。 这个问题就要看你需要统计的是什么?经济效益是什么?通常情况下,95%被作为常用的置信度,原理就在于3西格玛控制(在一些严格的领域甚至会用到6西格玛),此时已经有很高的置信度了,那在往上去,随着置信度的上升,置信区间的跨度也就越大,对参数估计的精度必定降低。点估计就一个值,精度高,但置信度则低,精度与置信度相互的取舍则要全由分析者自行选择了。 1.3 计算置信区间的步骤第一步:求一个样本的均值 第二步:计算出抽样误差。 人们经过实践,通常认为调查: 100个样本的抽样误差为±10% 500个样本的抽样误差为±5% 1,200个样本时的抽样误差为±3% 第三步:用第一步求出的“样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点。 1.4 举例说明美国Gallup(盖洛普)公司就消费者对美国产品质量的看法,对美国、德国和日本三国共计3,500名消费者(每个国家约1,200名)分别进行了调查,调查结果:有55%的美国人认为美国产品质量好,而只有26%的德国人和17%的日本人持同样看法。抽样误差为±3%,置信水平为95%。则这三个国家消费者的置信区间分别为: 国别样本均值抽样误差置信区间 美国55%±3%52%-58% 德国26%±3%23%-29% 日本17%±3%14%-20% 二、关于置信区间的宽窄窄的置信区间比宽的置信区间能提供更多的有关总体参数的信息。 假设全班考试的平均分数为65分,则 置信区间间隔宽窄度表达的意思0-100分100,宽,等于什么也没告诉你30-80分50,较窄,你能估出大概的平均分了(55分)60-70分10,窄,你几乎能判定全班的平均分了(65分) 三、样本量对置信区间的影响影响:在置信水平固定的情况下,样本量越多,置信区间越窄。 下面是经过实践计算的样本量与置信区间关系的变化表(假设置信水平相同): 样本量置信区间间隔宽窄度10050%—70%20,宽80056.2%-63.2%7,较窄1,60057.5%—63%5.5,较窄3,20058.5%—62%3.5,更窄由上表得出: 1、在置信水平相同的情况下,样本量越多,置信区间越窄。2、置信区间变窄的速度不像样本量增加的速度那么快,也就是说并不是样本量增加一倍,置信区间也变窄一倍(实践证明,样本量要增加4倍,置信区间才能变窄一倍),所以当样本量达到一个量时(通常是1,200,如上例三个国家各抽了1,200个消费者),就不再增加样本了。通过置信区间的计算公式来验证置信区间与样本量的关系 置信区间=样本的推断值±(可靠程度系数×)从上述公式中可以看出: 在其他因素不变的情况下,样本量越多(大),置信区间越窄(小)。 四、置信水平对置信区间的影响影响:在样本量相同的情况下,置信水平越高,置信区间越宽。 举例说明:美国做了一项对总统工作满意度的调查。在调查抽取的1,200人中,有60%的人赞扬了总统的工作,抽样误差为±3%,置信水平为95%;如果将抽样误差减少为±2.3%,置信水平降到为90%。则两组数字的情况比较如下: 抽样误差置信水平置信区间间隔宽窄度±3%95%60%±3%=57%-63%6宽±2.3%90%60%±2.3%=57.7%-62.3%4.6窄由上表得出: 在样本量相同的情况下(都是1,200人),置信水平越高(95%),置信区间越宽。 五、样本量对置信水平的影响影响:在置信区间不变的情况下,样本量越多,置信水平越高。 举例说明: 置信区间样本量置信水平52%-58%1,20095%(前面美国盖洛普公司的例子) https://www.zhihu.com/question/26419030/answer/103956460 https://zhuanlan.zhihu.com/p/38755140 https://zhuanlan.zhihu.com/p/110612323 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |