统俗讲义之

您所在的位置:网站首页 显著性水平z 统俗讲义之

统俗讲义之

2024-07-14 22:54| 来源: 网络整理| 查看: 265

统计显著性,是针对某种比较来说的。要比较,就要有个标准。在一个统计研究里,“零假设”(Ho,读作H null)就是当下的参考标准。统计上的结论或假设总是倾向于保守,有点像惯性定律,除非你有足够的影响力显著改变了什么,否则我们不会轻易改变当前已有的结论——当然这个结论也是保守、合理、并有一定共识的。 当将你的检验结果与“零假设”比较时,会出现四种情况:

2x2表“零假设”是对的“零假设”是错的接受“零假设”接受对的(这没毛病,概率为 1-Alpha)接受错的(Type II Error,Beta Error)拒绝“零假设”拒绝对的(Type I Error,Alpha Error)拒绝错的(这也没毛病,概率为 1-Beta)

其中Alpha,就是当“零假设”是对的,你却拒绝了它,的概率,我们称它为“显著水平”(Significance Level)。比如若将Alpha设定为0.05,那么就是允许你的检验有5%的概率拒绝接受一个已知的正确的结论。顺便提一句,拒绝错误的零假设的概率(1-Beta),就是所谓的“统计功效”(Statistical Power),已在另一篇文章里有详细 解释。 而当我们说 p 值(p-value, p要小写),就是指在假设“零假设”是对的时,我们能从实际样本中找到符合“零假设”的样本概率。比如,

“零假设”是:自发布起一天内,简书文章被阅读数与作者间的互粉数(互捧)无关:或说在发布一天内,“文章点击数”除以“互粉数+1”这个比值是随机正态分布;而 “备择假设”是:简书文章需要作者互粉(互捧),自身文章被阅读数才会显著增加。

(小注释:1. 这个假设中所选的保守假设,因为笔者还不深度了解当前阅读网站的规律玩法,只选用书籍文章以纸传播时代的经验:只有名著、好文章才会被大量传播阅读,跟作者与他人互动无关。2. 我们收集简书每个作者“文章点击数”除以“互粉数+1”这个比值,是考虑到互粉数可以是0,而分母不能为0;(另注意,此处计算的不是概率,只是个比值)3 看这个比值是不是近似正态分布,是因为笔者认为如果互粉和文章点击数无相关,比值极高值和极低值应该都是少数,大部分都是徘徊在某个区间,类似于随机正态分布。

那么这里的p值,就是假设“零假设”是对的——文章点击数不需要作者互粉来提高——时,在我所收集的数据中,能找到满足“零假设”的最小概率:比如只找到4%的文章满足了其‘点击数’与‘互粉数’的比值,遵循(均值为u,标准差为sd的)随机正态分布的情况。(u和sd是能描述正态分布的属性参数,这俩数定了,正态分布图形就定了,可以用于比较了)

如果懂了如上解释,你会明白为何p值与alpha值是两回事,却又常常混谈——它俩都是概率,都用来描述差异显著性,但一个是样本中找到符合“零假设”的概率(p值,是实际样本中发现的概率);另一个是拒绝正确“零假设”的概率(alpha值,是设定的一个标准)。

而当这个概率(p值,比如4%),小于Alpha(比如设为0.05),即 p



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3