终于有人把 p 值讲明白了！

2024-07-08 15:00| 来源: 网络整理| 查看: 265

导读：p值（P value）就是当原假设为真时，比所得到的样本观察结果更极端的结果出现的概率，是用来判定假设检验结果的一个参数。p值是根据实际统计量计算出的显著性水平。本文带你了解p值和对p值的常见误解。

作者：罗恩·科哈维（Ron Kohavi）、黛安·唐（Diane Tang）、许亚（Ya Xu）

来源：大数据DT（ID：hzdashuju）

01 假设检验：确立统计显著性

在对照实验中，实验组有一组样本，每个对照组各有一组样本。如果零假设是来自实验组的样本和来自对照组的均值相同，我们会定量测试两组样本的差异的可能性大小。

如果可能性非常小，则我们拒绝零假设，并宣称差异是统计显著的。确切地说，有了实验组样本和对照组样本的人均营收的估计值，我们可以计算估计值的差异的p值，即在零假设为真的情况下观测到这种差值或更极端的差值的概率。

如果p值足够小，则我们拒绝零假设，并得出实验有效应（或者说结果统计上显著）的结论。但是多小是足够小呢？

科学的标准是使用小于0.05的p值，也就是说，如果事实上是没有效应的，那么100次里我们有95次能正确地推断出没有效应。另一种检验样本差异是否统计显著的方法是看置信区间有没有包含零值。95%置信区间是一个可以在95%的时间里覆盖真实差异值的区间。

对于较大的样本量，这个区间通常以观测到的实验组和对照组差值为中心点，向两边各扩展1.96倍于标准差的宽度。图2.3展示了p值和置信区间这两种方法的等价性。

▲图2.3 上图：用p值评定观测到的差值是否统计显著。如果p值小于0.05，则认为是统计显著的。下图：用95%置信区间Δ-1.96σ，Δ+1.96σ评定统计显著性的等价方法。如果零值落在置信区间之外，则认为是统计显著的

统计功效（statistical power）是如果变体之间有真实差异，检测出有意义的差值的概率（统计上指当真实有差异时拒绝零假设的概率）。

从实践的角度来说，你想要实验有足够大的功效，从而能够以高概率得出实验是否导致了比你所在意的变化更大的变化的结论。通常情况下，样本量越大，统计功效就越大。实验设计的惯常做法是选择80%～90%的统计功效。

虽然“统计显著性”衡量了当零假设为真时，基于偶然性得到你的观察值或更极端观察值的可能性有多大，但不是所有统计显著的结果都有实际意义。

以人均营收为例，多大的差异从业务角度来说是紧要的？换句话说，什么样的变化是实际显著的（practically significant）？构建这一实质性的边界很重要，它可以帮助理解一个差异是否值得花费相应改动所需的成本。

如果你的网站像谷歌和必应那样有数十亿美金的营收，那么0.2%的变化是实际显著的。作为对比，一个初创公司可能认为2%的增长都太小了，因为他们追求的是10%或更大的增长。对于我们的例子，从业务角度来看，人均营收提高1%及以上是重要的或者说是实际显著的。

02 曲解统计结果

我们现在来介绍一些解读对照实验的数据时常见的错误。

1. 统计功效不足

零假设显著性检验（Null Hypothesis Significance Testing, NHST）框架通常假定对照组和实验组之间的指标没有差异（零假设），如果数据能提供有力的反对证据，则拒绝该假设。

一个常见的错误是，仅仅由于指标不是统计显著的，就假设没有实验效应。而真实的情况很可能是因为实验的统计功效不足以检测到我们看到的效应量，也就是实验没有足够的用户。

例如，对GoodUI.org的115个A/B测试进行的评估表明，大多数实验的统计功效不足。这就是为什么说重要的是要定义多大的变化是实际显著的，并确保有足够的功效来检测该大小或更小的变化。

如果实验仅影响总体的一小部分，那么仅分析受影响的子集就很重要。即使对一小部分用户而言是巨大的影响，也可能在分析总体时被稀释并且无法被检测到。

2. 曲解p值

p值经常被曲解。最常见的错误解释是基于单个实验中的数据，认为p值代表对照组和实验组的指标平均值相同的概率。

p值是当假定零假设为真时，得到的结果与观测到的结果相同或更极端的概率。零假设的条件至关重要。

以下是“A Dirty Dozen: Twelve P-Value Misconceptions”中的一些不正确的陈述和解释：

1）如果p值=0.05，则零假设只有5%的机会为真。

p值是基于零假设为真的前提来计算的。

2）不显著的差异（例如，p值>0.05）意味着实验组和对照组之间没有差异。

此时观察到的结果与零假设的实验效应为零相符，但同时也和其他数值的实验效应相符。当展示一个典型的对照实验的置信区间时，我们发现该区间包含零。但这并不意味着置信区间中的零比其他值更有可能出现。实验很可能没有足够的统计功效。

3）p值=0.05表示在零假设下，我们观察到的数据仅有5%的时间出现。

通过上面的p值的定义，我们知道这是不正确的。该p值（=0.05）包括了出现跟观察到的值一样以及更极端的情况。

4）p值=0.05表示如果拒绝零假设，则假阳性的可能性仅为5%。

这和第一个例子很像，但是更不容易看到其错误性。下面这个例子可能会有所帮助：假设你正在尝试通过在铅上施加热和压力并浇注药剂来将铅转化为金。

你测量所得混合物的“黄金”量，这是一个有很多干扰的测量。由于我们知道化学处理无法将铅的原子序数从82变为79，任何对零假设（也就是不变）的否定都是错误的，因此任何情况下拒绝零假设都是假阳性，而与p值无关。

要计算假阳率，即在p值

【本文地址】

今日新闻