【DS with Python】假设检验、显著性水平、T检验的数学理论 与scipy.stats模块实现

您所在的位置:网站首页 t检验的显著性水平判断 【DS with Python】假设检验、显著性水平、T检验的数学理论 与scipy.stats模块实现

【DS with Python】假设检验、显著性水平、T检验的数学理论 与scipy.stats模块实现

2024-06-17 01:44| 来源: 网络整理| 查看: 265

文章目录 前言一、假设检验(hypothesis testing)与显著性水平 α \alpha α二、T检验简介2.1 单样本均值检验2.2 两个独立样本均值检验2.2.1总体方差相等 σ 1 2 \sigma_1^2 σ12​= σ 1 2 \sigma_1^2 σ12​= σ 2 \sigma^2 σ22.2.2 总体方差不相等 2.3 配对样本均值检验 三、Python中的T检验的使用3.1 单样本T检验(ttest_1samp)3.2 双独立样本T检验,用ttest_ind,3.3 配对样本T检验,用.ttest_rel()3.4 示例3.5 p值的局限性 四、对与显著性水平和p值的总结下节预告

前言

前两章是基于数理统计和多元统计分析对假设检验和T检验的理论进行简述,第三章和第四章是实际Python应用中的方法与实际案例。

一、假设检验(hypothesis testing)与显著性水平 α \alpha α

  真实的世界中,规律与事物间的关联往往不像想象中那么直观,为了使得出的结论更具有说服性,我们往往会采用假设检验的方法,通过否定一个假设,来接受所否定的假设的完全对立的另一个假设,这就是假设检验的操作步骤概述。

  引用百度百科的介绍:

假设检验是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

  例如,我们需要知道实验中不同的两个变量是否对结果产生了影响,就可以用到假设检验的方法。

  假设检验的核心思想是小概率事件,即如果我们的假设发生的概率非常小,那么就拒绝这个假设,否则,不拒绝这个假设(注意:不拒绝不等同于接受,但在一般简单应用过程中,可以解释为不在拒绝域内即可接受该假设)

  在假设检验中,我们首先给定零假设(Null hypothesis),这个假设往往是我们需要否定的假设,我们计算出这个假设的概率小于一定的阈值后,就会拒绝这个假设,于此同时,我们给定一个与零假设完全相反的另一个假设,即备择假设(Alternative hypothesis),当拒绝了零假设,我们就会接受备择假设。

  这时候我们发现,尽管我们有再大的把握来拒绝零假设,仍旧不妨碍零假设可能是对的(例如:火鸡困境和明天太阳不会升起),如果零假设是对的,但我们拒绝了这个假设,那我们就犯了错,这就是第一类错误;也有可能我们的决定拒绝零假设的理由不充分,反而接受了零假设,但实际上零假设是错误的,这样我们就又犯了错,这就是第二类错误,很明显,降低了第一类错误的概率就会提升第二类错误的概率,在现实中,我们更倾向于控制第一类错误,这就是为什么我们要把"准备拒绝的假设"当作零假设。而为了控制第一类错误,我们设计了显著性水平 α \alpha α,可以先理解为零假设成立的概率阈值,我们再去估算零假设成立的概率 p − v a l u e p-value p−value,如果这个概率在我们设定的概率阈值之下,那我们就拒绝零假设,反之,则说在当前显著性水平下不拒绝零假设。我们发现,这个阈值越低,犯第一类错误的概率就越低。

二、T检验简介

  常用T检验大致分为三类:

单样本均值检验(One-sample t-test)两个独立样本均值检验(Independent two-sample t-test)配对样本均值检验(Dependent t-test for paired samples)

  本文主要介绍第一类和第二类的第一种情况,其他的可能日后补充,贴上了相关链接,如果感兴趣可以自行翻阅。

2.1 单样本均值检验

  作用:检验单样本的均值是否和总体的均值相等。

  比如,检验某批灯泡能正常使用的时长是否大于规定的时长,或某批零件的尺寸是否符合规定的尺寸。

  常用在总体均值已知(例如规定灯泡正常使用的时长),但总体方差未知的情况,记总体均值为 μ \mu μ,总体方差为 σ 2 \sigma^2 σ2(未知),样本的无偏估计为

均值:

X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n}\sum_{i=1}^nX_i Xˉ=n1​i=1∑n​Xi​

方差:

s 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 s^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2 s2=n−11​i=1∑n​(Xi​−Xˉ)2

  假设样本 X i X_i Xi​和总体符合正态分布,此时, X i ∼ N ( μ , σ 2 ) X ˉ = 1 n ∑ i = 1 n X i ∼ N ( μ , σ 2 n ) X_i \sim N(\mu,\sigma^2)\\ \bar{X}=\frac{1}{n}\sum_{i=1}^nX_i \sim N(\mu,\frac{\sigma^2}{n}) Xi​∼N(μ,σ2)Xˉ=n1​i=1∑n​Xi​∼N(μ,nσ2​)   由此可得 X ˉ − μ σ n = n ( X ˉ − μ ) σ ∼ N ( 0 , 1 ) (1) \frac{\bar{X}-\mu}{\frac{\sigma} {\sqrt{n}}}=\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma}\sim N(0,1) \tag{1} n ​σ​Xˉ−μ​=σn ​(Xˉ−μ)​∼N(0,1)(1)

  由卡方分布的定义: χ 2 = Z 1 2 + Z 2 2 + . . . + Z n 2 ∼ χ 2 ( n ) ∑ i = 1 n Z i 2 ∼ χ 2 ( n ) \chi^2=Z_1^2+Z_2^2+...+Z_n^2\sim \chi^2(n)\\ \sum_{i=1}^n Z_i^2\sim \chi^2(n) χ2=Z12​+Z22​+...+Zn2​∼χ2(n)i=1∑n​Zi2​∼χ2(n)   由样本的方差 s 2 s^2 s2与总体 σ 2 \sigma^2 σ2的方差的关系可以得到 ( n − 1 ) s 2 σ 2 = ∑ i = 1 n ( X i − X ˉ ) 2 σ 2 = ∑ i = 1 n ( Z i − Z ˉ ) 2 = ∑ i = 1 n Z i − n Z ˉ ∼ χ 2 ( n − 1 ) (2) \frac{(n-1)s^2}{\sigma^2}=\sum_{i=1}^n\frac{(X_i-\bar{X})^2}{\sigma^2}\\ =\sum_{i=1}^n(Z_i-\bar{Z})^2=\sum_{i=1}^nZ_i-n\bar{Z} \sim \chi^2(n-1) \tag{2} σ2(n−1)s2​=i=1∑n​σ2(Xi​−Xˉ)2​=i=1∑n​(Zi​−Zˉ)2=i=1∑n​Zi​−nZˉ∼χ2(n−1)(2)

  (注:此处 σ 2 \sigma^2 σ2未知,不能理解为 σ = ∑ i = 1 n ( X i − X ˉ ) 2 \sigma=\sum_{i=1}^n(X_i-\bar{X})^2 σ=∑i=1n​(Xi​−Xˉ)2)

  结合 T T T分布的定义:

  变量 X ∼ N ( 0 , 1 ) X \sim N(0,1) X∼N(0,1) Y ∼ χ 2 ( n ) Y\sim \chi^2(n) Y∼χ2(n)且 X X X与 Y Y Y相互独立,则 T = X Y N ∼ t ( n ) T=\frac{X}{\sqrt{\frac{Y}{N}}}\sim t(n) T=NY​ ​X​∼t(n)

  结合(1)(2)式子,可以消去 σ \sigma σ,得到样本均值、样本标准差与 T T T分布的关系

( 1 ) ( 2 ) / ( n − 1 ) = n ( X ˉ − μ ) s ∼ t ( n − 1 ) \frac{(1)}{\sqrt{(2)/(n-1)}} =\frac{\sqrt{n}(\bar{X}-\mu)}{s} \sim t(n-1) (2)/(n−1) ​(1)​=sn ​(Xˉ−μ)​∼t(n−1)

  (我们发现该式子与 Z Z Z检验时的 u = n ( x ˉ − μ ) σ ∼ N ( 0 , 1 ) u=\frac{\sqrt{n}(\bar{x}-\mu)}{\sigma} \sim N(0,1) u=σn ​(xˉ−μ)​∼N(0,1),此处 μ \mu μ和 σ \sigma σ已知,是很相似的)

  之后对于计算出来的值进行双侧检验或者单侧检验:

样本均值等于总体均值,用双侧检验 拒绝域为: ∣ n ( X ˉ − μ ) s ∣ > t α 2 , n − 1 |\frac{\sqrt{n}(\bar{X}-\mu)}{s}|>t_{\frac{\alpha}{2},n-1} ∣sn ​(Xˉ−μ)​∣>t2α​,n−1​

样本均值大于总体均值,用单侧检验: 拒绝域为: ∣ n ( X ˉ − μ ) s ∣ < t α , n − 1 |\frac{\sqrt{n}(\bar{X}-\mu)}{s}|t_{\alpha,n-1} ∣sn ​(Xˉ−μ)​∣>tα,n−1​

2.2 两个独立样本均值检验

  作用:检验两个独立样本的均值是否相等

  设两个相互独立的总体都服从正态分布, X 1 ∼ N ( μ 1 , σ 1 2 ) , X 2 ∼ N ( μ 2 , σ 2 2 ) X_1 \sim N(\mu_1,\sigma_1^2), X_2 \sim N(\mu_2,\sigma_2^2) X1​∼N(μ1​,σ12​),X2​∼N(μ2​,σ22​),假设两个总体方差 σ 1 2 \sigma_1^2 σ12​和 σ 2 2 \sigma_2^2 σ22​都未知。

  同上,可得 X 1 X_1 X1​和 X 2 X_2 X2​的无偏估计为:

均值 X ˉ 1 = 1 n 1 ∑ i = 1 n 1 X 1 i X ˉ 2 = 1 n 2 ∑ i = 1 n 2 X 2 i \bar{X}_1=\frac{1}{n_1}\sum_{i=1}^{n_1}X_{1i}\\ \bar{X}_2=\frac{1}{n_2}\sum_{i=1}^{n_2}X_{2i} Xˉ1​=n1​1​i=1∑n1​​X1i​Xˉ2​=n2​1​i=1∑n2​​X2i​

方差

s 1 2 = 1 n 1 − 1 ∑ i = 1 n 1 ( X i − X 1 ˉ ) 2 s 2 2 = 1 n 2 − 1 ∑ i = 1 n 1 ( X i − X 2 ˉ ) 2 s_1^2=\frac{1}{n_1-1}\sum_{i=1}^{n_1}(X_i-\bar{X_1})^2 \\s_2^2=\frac{1}{n_2-1}\sum_{i=1}^{n_1}(X_i-\bar{X_2})^2 s12​=n1​−11​i=1∑n1​​(Xi​−X1​ˉ​)2s22​=n2​−11​i=1∑n1​​(Xi​−X2​ˉ​)2

  根据两个样本的方差是否相等我们分成两种情况:

2.2.1总体方差相等 σ 1 2 \sigma_1^2 σ12​= σ 1 2 \sigma_1^2 σ12​= σ 2 \sigma^2 σ2

  参考教材《应用多元统计分析》北京大学出版社 高惠璇 编著,可以得到 X ˉ 1 − X ˉ 2 ∼ ( μ 1 − μ 2 , ( 1 n 1 + 1 n 2 ) σ 2 ) \bar{X}_1-\bar{X}_2 \sim (\mu_1-\mu_2,(\frac{1}{n_1}+\frac{1}{n_2})\sigma^2) Xˉ1​−Xˉ2​∼(μ1​−μ2​,(n1​1​+n2​1​)σ2)   得 ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) σ 1 n 1 + 1 n 2 ∼ N ( 0 , 1 ) \frac{(\bar{X}_1-\bar{X}_2)-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim N(0,1) σn1​1​+n2​1​ ​(Xˉ1​−Xˉ2​)−(μ1​−μ2​)​∼N(0,1)

  由卡方分布可加性得

( n 1 − 1 ) s 1 2 σ 2 + ( n 2 − 1 ) s 2 2 σ 2 ∼ χ 2 ( n 1 + n 2 − 2 ) \frac{\left(n_{1}-1\right) s_{1}^{2}}{\sigma^{2}}+\frac{\left(n_{2}-1\right) s_{2}^{2}}{\sigma^{2}} \sim \chi^{2}\left(n_{1}+n_{2}-2\right) σ2(n1​−1)s12​​+σ2(n2​−1)s22​​∼χ2(n1​+n2​−2)

  由 t t t 分布的构造定义 ( X ˉ 1 − X ˉ 2 ) − ( μ 1 − μ 2 ) s p 1 n 1 + 1 n 2 ∼ t ( n 1 + n 2 − 2 ) \frac{\left(\bar{X}_{1}-\bar{X}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{s_{p} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}} \sim t\left(n_{1}+n_{2}-2\right) sp​n1​1​+n2​1​ ​(Xˉ1​−Xˉ2​)−(μ1​−μ2​)​∼t(n1​+n2​−2)   其中 s p = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 = ∑ i = 1 n 1 ( X 1 i − X ˉ 1 ) 2 + ∑ i = 1 n 2 ( X 2 i − X ˉ 2 ) 2 n 1 + n 2 − 2 s_{p}=\sqrt{\frac{\left(n_{1}-1\right) s_{1}^{2}+\left(n_{2}-1\right) s_{2}^{2}}{n_{1}+n_{2}-2}}=\sqrt{\frac{\sum_{i=1}^{n_{1}}\left(X_{1 i}-\bar{X}_{1}\right)^{2}+\sum_{i=1}^{n_{2}}\left(X_{2 i}-\bar{X}_{2}\right)^{2}}{n_{1}+n_{2}-2}} sp​=n1​+n2​−2(n1​−1)s12​+(n2​−1)s22​​ ​=n1​+n2​−2∑i=1n1​​(X1i​−Xˉ1​)2+∑i=1n2​​(X2i​−Xˉ2​)2​ ​

  之后对于计算出来的值进行双侧检验或者单侧检验:

检验均值相等,用双侧检验, 拒绝域为 ∣ X ˉ 1 − X ˉ 2 s p 1 n 1 + 1 n 2 ∣ > t α 2 , n − 1 \left|\frac{\bar{X}_{1}-\bar{X}_{2}}{s_{p} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}\right|>t_{\frac{\alpha}{2}, n-1} ∣∣∣∣​sp​n1​1​+n2​1​ ​Xˉ1​−Xˉ2​​∣∣∣∣​>t2α​,n−1​检验 X ˉ 1 > X ˉ 2 {\bar{X}_{1}}>{\bar{X}_{2}} Xˉ1​>Xˉ2​,用单侧检验, 拒绝域为 ∣ X ˉ 1 − X ˉ 2 s p 1 n 1 + 1 n 2 ∣ < t α , n − 1 \left|\frac{\bar{X}_{1}-\bar{X}_{2}}{s_{p} \sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}\right|


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3