科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算

您所在的位置:网站首页 eviews中p值为多少算是检验显著 科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算

科研论文中常见的P值和显著性是什么意思?一文搞懂P值及其计算

2022-10-03 20:35| 来源: 网络整理| 查看: 265

我们常常在科研论文的数据分析部分或者某些科普文章引用的资料当中见到涉及P值的统计学报表以及相关的显著性判断。非专业读者看到这些关于P值和'显著性'的描述往往是一头雾水(如下表),大多略过,但实际上这些统计结果才是一篇论文中最准确直接的定性结论。了解了P值的含义和显著性的判定,可以帮助我们快速掌握科研论文中第一手研究数据的指向和意义。

文章图片1

一个p值统计报表的例子

P值往往涉及统计结果显著性的判定,因此我们得从显著性的概念说起。本文将用通俗的文字来简介相关的统计学概念,并附上P值的计算方法。

统计显著性和置信度

任何理论(或认识)都没法保证其关于现实的推测是100%正确的,这归因于理论永远都只是对现实世界真相的大致概括和特征提取。理论只能无限趋近于真实,但无法达到真实。人类利用的仅仅是越来越接近真相的理论而已。

所以对于任何说法,都有一个可信度问题。而通过对于现实的重复测试,我们将能够了解某个说法究竟有多可信,不同的说法之间是存在着可信度的差异的。这就像是盲人摸象之后,每个盲人说出的有关大象外形的可信度是有差别的,而且只要让盲人们多摸几次,他们对大象长相的描述会越来越接近真实。

了解不同观点的可信度,是统计的目的之一。统计中所谓的'显著性'就是可信度的一种指标。

具有统计显著性的结果反映的是经过严格的测试得到的结果达到了一定可信度——专业术语叫'置信度'(又叫“置信水平”),它表明我们在多大程度上相信结论不会因随机因素而发生偏差。更具体地说,置信度是我们所持理论预测出来的结果在指定区间出现的可能性。

显著性跟置信度的内涵异曲同工,但它们的表述方法刚好相反,且在应用中描述方式略有差异:

· 对于置信度一般我们会说'……实验结果落在某个置信区间的可能性可以达到多高……'(这个可能性越大置信度就越高)

· 而对于显著性我们会说'……我们的理论假设被否定的可能性小于多少,我们的假设就可以被称为显著或者极显著……'(这个可能性越小显著性越高)

也就是说,置信度通常是正面描述(拒伪的),而且通常需要与一个置信区间关联起来。而显著性则是反面描述(拒真的),而且通常需要与一个预设的判断门槛值联系起来。

文章图片2

显著性与置信度(置信水平)的关系

P值和零假设

统计学使用P值来代表前面提到的'理论假设被否定的可能性'。科学研究往往会选取与理论提出的假设相对的情况作为'证伪对象'——即尝试证实'这种与我的观点相对的假设'不大可能发生,这种用来当'靶子'的假设在统计学中被称为'零假设'(又叫'原假设',或者'虚无假设',通常用H0表示,英文Null Hypothesis),通俗地说即:靶子被打倒,研究即成立。

所以,P值通常被用于在假设检验中描述某理论假设的有效性,通常理论的反面会被设为'零假设'。例如:我认为'读者阅读完本文的耗时大于10分钟',其零假设便是'……读完本文的耗时小于10分钟'。因此我们只需要证明零假设发生几率相当小,那就可以说明我的说法是可信的。反之,只要证明我的说法的发生几率大到某个程度也可以证明我的理论。

但统计学上往往采用否定零假设的方式来断言某个说法的可靠性,而不是倒过来。因为概率论认为'小概率事件'在单次测试时几乎是不可能发生的。因此只要证明零假设是小概率事件就可以肯定对立假设了。这或许是统计分析往往采用否定零假设的方式来做置信度判定的原因。

于是我只需要真实地调查足够多的读者阅读本文的真实耗时,就可以算出P值。P值是一个概率,取值在0和1之间,即绝对可能和绝对不可能之间。因此,如果P值为5%,则置信度就是95%(两个加起来=1),这反映出我的说法跟现实的关联显著性较高,因此较为可信。

显然,如果零假设('……耗时小于10分钟')的发生可能性很低,即是个小概率事件,那么与之相反的对立假设('……耗时大于10分钟')的发生可能性就很高。小概率事件在单次测试当中几乎是不可能发生的,因此可以等同认为我的理论的单次断言是完全可信的(但不能说我的理论的全部断言都是可信的)。

文章图片3

零假设与对立假设就像在轮盘上猜滚珠落到黑格与红格的关系

P值是一个概率,是一个数,因此它可被用于衡量实验证据对结论的支持强度,并以下面的方式来做显著定性分析。确定统计显著性有三种主要方法:

· 如果进行的检验得到的P值小于预设的α水平,则这个测试具有统计学显著性。

· 如果置信区间不包含零假设的值,则检验结果具有统计显著性。例如置信区间

· 如果您的P值小于α,在置信区间上不存在零假设的值,因此具有统计显著性。(这是将前两点综合起来的推论)

注意:α值是人为预设的一个标准。根据经验惯例,α值通常取0.05作为显著性的判定标准,取0.001作为极显著的判定标准,也就是说。

· 较小的P值(通常≤0.05)表示实验结果是零假设不成立的有力证据,因此零假设可以比较可信地推翻。

· 较大的P值(> 0.05)表示反对零假设的证据不充分,意味着零假设成立的几率偏大。

· 极接近临界值(0.05)的P值被认为是边际性的(这有点信不信由你的味道)。

文章图片4

P-值的图示解释

上图:概率及统计显著性示意。纵轴是观察的概率,横轴是结果可能的取值。

Very unlikely observations = 非常不可能的观察结果

Observed Result(value) = 观察结果(值)

95% statistical significance threshold = 95%统计显著性门槛值

Observed p-value (statistic significance) = 观察到的p值(统计学显著性)

用一个栗子小结一下

例如,我刚在'饿了吗'上点了一份餐,饿了吗估算的送达时间是30分钟,但我坚持认为通常30分钟内都送不到。所以我可以进行一次假设检验,因为我认为'送达时间在30分钟以内'的零假设是不正确的,因此我的对立假设是'送达时间大于30分钟'(也就是说会迟到,要知道送餐迟到饿了吗就要赔优惠券,哈哈)。

为了证实我的观点,我每天都点这同一家餐馆,并实测每次送达所花的时间。在获得了大量的样本数据之后,我计算了样本的P值,假设P值是0.001(远小于0.05),这意味着,我关于'送餐会迟到的判断会是错误的'的可能性大概是0.001,或者说我判断错误的可能性远小于0.05这个'统计学显著性的经验门槛值'。因此,我基本上可以相信饿了吗自动估算的时间是错的,这样一来饿了吗每次都应该给我赔偿优惠券。

但现实中这只是我的痴心妄想,基本上没可能,因为饿了吗公司的开发人员可没有那么傻。他们一定会根据每次送餐的送达时间的统计情况,不断刷新它们的估算公式,以确保他们估算结果的P值



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3