统计学之T检验、Z检验、F检验、卡方检验

您所在的位置:网站首页 f检验的表 统计学之T检验、Z检验、F检验、卡方检验

统计学之T检验、Z检验、F检验、卡方检验

2023-03-27 00:28| 来源: 网络整理| 查看: 265

一、参数和非参数检验1、参数检验

参数检验,是在总体分布已知的情况下,对总体分布的参数如均值、方差等进行推断的方法

参数检验的方法有,T检验、Z检验、F检验、二项分布总体的假设检验等,这些检验都是假设样本来自于正态分布的总体,将总体的数字特征看做未知的参数,通过样本的数据特征对其总体进行统计推断。

2、非参数检验

由于种种原因,人们往往无法对总体分布形态做简单假定,此时参数检验方法就不适用了。

非参数检验,是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。非参数检验推断过程中不涉及有关总体分布的参数。

常用的非参数检验的方法有,两个独立样本的K-S检验、W-W检验、U检验等,多个独立样本的H检验、中位数检验等,卡方检验,二项分布检验、拟合优度检验等。

二、T检验1、t分布

t分布用于根据小样本来估计呈正态分布且方差未知的总体的均值。

t分布曲线形态与n(自由度df)有关,与标准正态分布曲线相比,自由度df越小,t分布曲线越平坦;自由度df越大,t分布曲线越接近正态分布曲线。

t分布是不同自由度下关于统计量t的概率密度函数f(t),实际上,在进行t检验时根据自由度和显著性水平得到的就是标准t分布下的t值,进而与实际的检验统计量t比较,来得出结论。

t检验是一种手法,用于判断两组间平均差是否有统计学意义,而在判断统计学意义的时候就需要用到t分布;即t分布是用来t检验的。

2、什么是T检验?

T检验,又称t test,用于样本量较小(n30,(无论总体是否服从正态分布)抽样研究的样本均数服从或者近似服从正态分布;而如果样本量较小(参考样本量t_{(α/2,n-1)} ,则拒绝原假设,认为样本均值与总体均值不等;否则不拒绝原假设。

②对于左尾检验,若\left| \frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}}\right|t_{(α/2,n-1)} ,则拒绝原假设,认为样本均值与总体均值不等;否则不拒绝原假设。

(iii)python调用实现单样本t检验

一是使用statsmodels.stats.weightstats模块下的DescrStatsW.ttest_mean()进行单样本t检验。

statsmodels.stats.weightstats.DescrStatsW.ttest_mean(value=0,alternaitve="two_sided")

value是假设的均值,alternative是备择假设的形式,可选‘two-sided’双边检验, ‘larger’右尾检验, ‘smaller’左尾检验。

from statsmodels.stats import weightstats as sw pop_mean=82 data=[76,65,67,54,87,85,86,94,67,73,71,72,83,87,67,87,78,79,76,98,76,84,85,93,72] t,p,df=sw.DescrStatsW(data).ttest_mean(value=pop_mean,alternative="smaller") a,b=sw.DescrStatsW(data).tconfint_mean() print("t统计量值={},p值={},自由度={}".format(t,p,df)) print("差值95%置信区间下限={},上限={}".format(a,b))#可通过scipy.stats模块的t模块使用t分布,计算出标准的t值,用于和检验统计量t值比较 #t.ppf(1-显著性水平α,自由度) #pdf为概率密度函数,刻画的是随机变量落在区间的概率; #而这里是要计算临界值,即t值,使用概率密度函数的逆函数ppf,可得到临界值,即t分布表对应的t值 from scipy.stats import t t0=t.ppf(0.95,24) print("显著性水平为0.05,自由度为24,对应的标准临界值c={}".format(t0))

二是使用过scipy.stats模块下的ttest_1samp()进行单样本t检验。

scipy.stats.ttest_1samp(a,popmean,axis=None,nan_policy="propagate",alternative="two_sided")

a表示样本数据;popmean表示零假设期望值,即总体均值;axis计算的轴,如果没有则计算整个数组;nan_policy定义输入包含nan值时如何处理,默认propagate返回nan值、raise显示错误、omit忽略nan值执行计算。

注意,该函数没有alternative。实际其计算的是双边检验,如果备择假设=0时,进行判定单侧p值=1-p值/2,t符号时,t>=0时则判定P值=p值/2;t

(2)双独立样本均值z检验

检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体差异是否显著。

则检验统计量 z=\frac{\bar{X}_{1}-\bar{X}_{2}}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}} 。如果两个样本的总体标准差σ1、σ2未知,则可用样本标准差s1,s2代替。

¯X1、¯X2为两个样本数据的平均值;σ1、σ2为总体标准差;s1、s2为样本标准差;n1、n2为样本量。

(ii)python实现双样本均值z检验

①statsmodels.stats.weightstats.ztest(x1,x2,value=0,alternative="two-sided")

x1x2为独立样本数据,其中一个为none时,进行单总体检验;value为假设值,单样本情况下值是零假设x1的平均值,双样本情况下值是在零假设下x1x2的平均值间的差值;alternative为备择假设形式,可选‘two-sided’双边检验, ‘larger’右尾检验, ‘smaller’左尾检验;

import statsmodels.stats.weightstats as sw #单样本和双样本的z检验都是用该函数 arr1 = [23,36,42,34,39,34,35,42,53,28,49,39,46,45,39,38,45,27,43,54,36,34,48,36,47,44,48,45,44,33,24,40,50,32,39,31] arr2 =[41,34,36,32,32,35,33,31,35,34,37,34,31,36,37,34,33,37,33,38,37,34,36,36,31,33,36,37,35,33,34,33,35,34,34,34] t,p=sw.ztest(arr1,arr2,value=0,alternative="two-sided") print("z值={},p值={}".format(t,p))

补充:两个独立样本比例之差的z检验(比例差异时通常用z检验)

statsmodels.stats.proportion.proportions_ztest([count1,count2],[nobs1,nobs2],value=0,alternative='two-sided', prop_var=False)

[count1,count2]参数表示两个概率的分子(即成功次数);[nobs1,nobs2]表示两个概率的分母(即观测次数);value为假设值,单样本情况下值是零假设x1的平均值,双样本情况下值是在零假设下x1x2的平均值间的差值(一般为0);alternative为备择假设形式,可选‘two-sided’双边检验, ‘larger’右尾检验, ‘smaller’左尾检验;prop_var为false时则根据样本比例计算比例估计的方差,常见的是零假设下使用比例来指定比例估计的方差;

from statsmodels.stats.proportion import proportions_ztest z,p=proportions_ztest([81,48],[180,150],alternative="two-sided") #即概率是81/180,48/150 print("z值={},p值={}".format(z,p))四、卡方检验1、卡方分布

若N个相互独立的随机变量X1、X2、X3……Xn均服从标准正态分布(即独立同分布于标准正态分布),即Xi~N(0,1),则这n个服从标准正太分布的随机变量的平方和 X=\sum_{1}^{n}{X_{i}^{2}} 构成新的随机变量,成X是自由度n的卡方变量,其分布称为自由度n的卡方分布,记X~ χ_{n}^2 。

2、什么是卡方检验

卡方检验就是统计样本的实际观测值和理论推断值之间的偏离程度,偏离程度决定卡方值的大小,卡方值越大,二者偏离程度越大;如果两个值完全相同则卡方值为0。卡方检验是非参数检验,适用于布尔型数据和二项分布数据。

卡方统计量 χ^2=Σ\frac{(fa-fe)^{2}}{fe} ,其中fa表示观察值频数,fe表示期望值频数。

卡方统计量的分布与自由度有关;自由度v=(行数C-1)*(列数R-1)。

卡方检验针对分类变量。可用于推断两个或两个以上总体率或构成比是否有差别等,多用于拟合优度检验和独立性检验。

3、卡方检验的前提条件

(1)随机样本数据

(2)最好是大样本数据,针对表格的理论频数不能太小。

①若样本量n>=40,且任意一个格子的理论频数Tij>=5,可直接使用卡方检验公式,即χ^2=Σ((fa-fe)^2/fe);

②若样本量n>=40,但出现一个格子的理论频数1



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3