统计学之T检验、Z检验、F检验、卡方检验

您所在的位置：网站首页 › f检验的表 › 统计学之T检验、Z检验、F检验、卡方检验

统计学之T检验、Z检验、F检验、卡方检验

2023-03-27 00:28| 来源: 网络整理| 查看: 265

一、参数和非参数检验1、参数检验

参数检验，是在总体分布已知的情况下，对总体分布的参数如均值、方差等进行推断的方法。

参数检验的方法有，T检验、Z检验、F检验、二项分布总体的假设检验等，这些检验都是假设样本来自于正态分布的总体，将总体的数字特征看做未知的参数，通过样本的数据特征对其总体进行统计推断。

2、非参数检验

由于种种原因，人们往往无法对总体分布形态做简单假定，此时参数检验方法就不适用了。

非参数检验，是在总体方差未知或知道甚少的情况下，利用样本数据对总体分布形态等进行推断的方法。非参数检验推断过程中不涉及有关总体分布的参数。

常用的非参数检验的方法有，两个独立样本的K-S检验、W-W检验、U检验等，多个独立样本的H检验、中位数检验等，卡方检验，二项分布检验、拟合优度检验等。

二、T检验1、t分布

t分布用于根据小样本来估计呈正态分布且方差未知的总体的均值。

t分布曲线形态与n（自由度df）有关，与标准正态分布曲线相比，自由度df越小，t分布曲线越平坦；自由度df越大，t分布曲线越接近正态分布曲线。

t分布是不同自由度下关于统计量t的概率密度函数f(t)，实际上，在进行t检验时根据自由度和显著性水平得到的就是标准t分布下的t值，进而与实际的检验统计量t比较，来得出结论。

t检验是一种手法，用于判断两组间平均差是否有统计学意义，而在判断统计学意义的时候就需要用到t分布；即t分布是用来t检验的。

2、什么是T检验？

T检验，又称t test，用于样本量较小（n30，（无论总体是否服从正态分布）抽样研究的样本均数服从或者近似服从正态分布；而如果样本量较小（参考样本量t_{(α/2,n-1)} ，则拒绝原假设，认为样本均值与总体均值不等；否则不拒绝原假设。

②对于左尾检验，若\left| \frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}}\right|t_{(α/2,n-1)} ，则拒绝原假设，认为样本均值与总体均值不等；否则不拒绝原假设。

（iii）python调用实现单样本t检验

一是使用statsmodels.stats.weightstats模块下的DescrStatsW.ttest_mean()进行单样本t检验。

statsmodels.stats.weightstats.DescrStatsW.ttest_mean(value=0,alternaitve="two_sided")

value是假设的均值，alternative是备择假设的形式，可选‘two-sided’双边检验, ‘larger’右尾检验, ‘smaller’左尾检验。

from statsmodels.stats import weightstats as sw pop_mean=82 data=[76,65,67,54,87,85,86,94,67,73,71,72,83,87,67,87,78,79,76,98,76,84,85,93,72] t,p,df=sw.DescrStatsW(data).ttest_mean(value=pop_mean,alternative="smaller") a,b=sw.DescrStatsW(data).tconfint_mean() print("t统计量值={}，p值={}，自由度={}".format(t,p,df)) print("差值95%置信区间下限={}，上限={}".format(a,b))

#可通过scipy.stats模块的t模块使用t分布，计算出标准的t值，用于和检验统计量t值比较 #t.ppf(1-显著性水平α,自由度) #pdf为概率密度函数，刻画的是随机变量落在区间的概率； #而这里是要计算临界值，即t值，使用概率密度函数的逆函数ppf，可得到临界值，即t分布表对应的t值 from scipy.stats import t t0=t.ppf(0.95,24) print("显著性水平为0.05，自由度为24，对应的标准临界值c={}".format(t0))

二是使用过scipy.stats模块下的ttest_1samp()进行单样本t检验。

scipy.stats.ttest_1samp(a,popmean,axis=None,nan_policy="propagate",alternative="two_sided")

a表示样本数据；popmean表示零假设期望值，即总体均值；axis计算的轴，如果没有则计算整个数组；nan_policy定义输入包含nan值时如何处理，默认propagate返回nan值、raise显示错误、omit忽略nan值执行计算。

注意，该函数没有alternative。实际其计算的是双边检验，如果备择假设=0时，进行判定单侧p值=1-p值/2，t符号时，t>=0时则判定P值=p值/2；t

（2）双独立样本均值z检验

检验来自两个的两组样本平均数的差异性，从而判断它们各自代表的总体差异是否显著。

则检验统计量 z=\frac{\bar{X}_{1}-\bar{X}_{2}}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}} 。如果两个样本的总体标准差σ1、σ2未知，则可用样本标准差s1，s2代替。

¯X1、¯X2为两个样本数据的平均值；σ1、σ2为总体标准差；s1、s2为样本标准差；n1、n2为样本量。

（ii）python实现双样本均值z检验

①statsmodels.stats.weightstats.ztest(x1,x2,value=0,alternative="two-sided")

x1x2为独立样本数据，其中一个为none时，进行单总体检验；value为假设值，单样本情况下值是零假设x1的平均值，双样本情况下值是在零假设下x1x2的平均值间的差值；alternative为备择假设形式，可选‘two-sided’双边检验, ‘larger’右尾检验, ‘smaller’左尾检验；

import statsmodels.stats.weightstats as sw #单样本和双样本的z检验都是用该函数 arr1 = [23,36,42,34,39,34,35,42,53,28,49,39,46,45,39,38,45,27,43,54,36,34,48,36,47,44,48,45,44,33,24,40,50,32,39,31] arr2 =[41,34,36,32,32,35,33,31,35,34,37,34,31,36,37,34,33,37,33,38,37,34,36,36,31,33,36,37,35,33,34,33,35,34,34,34] t,p=sw.ztest(arr1,arr2,value=0,alternative="two-sided") print("z值={},p值={}".format(t,p))

②补充：两个独立样本比例之差的z检验（比例差异时通常用z检验）

statsmodels.stats.proportion.proportions_ztest([count1,count2],[nobs1,nobs2],value=0,alternative='two-sided', prop_var=False)

[count1,count2]参数表示两个概率的分子（即成功次数）；[nobs1,nobs2]表示两个概率的分母（即观测次数）；value为假设值，单样本情况下值是零假设x1的平均值，双样本情况下值是在零假设下x1x2的平均值间的差值（一般为0）；alternative为备择假设形式，可选‘two-sided’双边检验, ‘larger’右尾检验, ‘smaller’左尾检验；prop_var为false时则根据样本比例计算比例估计的方差，常见的是零假设下使用比例来指定比例估计的方差；

from statsmodels.stats.proportion import proportions_ztest z,p=proportions_ztest([81,48],[180,150],alternative="two-sided") #即概率是81/180，48/150 print("z值={}，p值={}".format(z,p))四、卡方检验1、卡方分布

若N个相互独立的随机变量X1、X2、X3……Xn均服从标准正态分布（即独立同分布于标准正态分布），即Xi~N(0,1)，则这n个服从标准正太分布的随机变量的平方和 X=\sum_{1}^{n}{X_{i}^{2}} 构成新的随机变量，成X是自由度n的卡方变量，其分布称为自由度n的卡方分布，记X~ χ_{n}^2 。

2、什么是卡方检验

卡方检验就是统计样本的实际观测值和理论推断值之间的偏离程度，偏离程度决定卡方值的大小，卡方值越大，二者偏离程度越大；如果两个值完全相同则卡方值为0。卡方检验是非参数检验，适用于布尔型数据和二项分布数据。

卡方统计量 χ^2=Σ\frac{(fa-fe)^{2}}{fe} ，其中fa表示观察值频数，fe表示期望值频数。

卡方统计量的分布与自由度有关；自由度v=(行数C-1)*(列数R-1)。

卡方检验针对分类变量。可用于推断两个或两个以上总体率或构成比是否有差别等，多用于拟合优度检验和独立性检验。

3、卡方检验的前提条件

（1）随机样本数据

（2）最好是大样本数据，针对表格的理论频数不能太小。

①若样本量n>=40，且任意一个格子的理论频数Tij>=5，可直接使用卡方检验公式，即χ^2=Σ((fa-fe)^2/fe)；

②若样本量n>=40，但出现一个格子的理论频数1

【本文地址】

统计学之T检验、Z检验、F检验、卡方检验

统计学之T检验、Z检验、F检验、卡方检验

今日新闻

推荐新闻