t检验的几种应用案例

您所在的位置:网站首页 单样本t检验案例分析例题 t检验的几种应用案例

t检验的几种应用案例

#t检验的几种应用案例| 来源: 网络整理| 查看: 265

根据如上数据,可计算样本均值xbar为550.75,样本标准差s为4.25,所以t统计量的值为0.706。

步骤四:对比结果下结论

对比计算的t统计量和理论t分布的临界值,如果统计量的值大于临界值,则拒绝原假设(即认为样本均值与总体均值之间存在显著的差异),否则接受原假设。参照t分布的临界值表,在置信水平为0.05,自由度为15的情况下,对应的临界值为0.821。对比发现,t统计量0.706是小于临界值0.821的,故不能拒绝原假设,即认为饮料净含量的检验结果是合格的。

在平时的学习或工作中,如需使用Python完成单样本t检验的落地,可以调用scipy的子模块stats中的ttest_1samp函数。接下来利用ttest_1samp函数,对如上介绍的饮料净含量数据作单样本t检验操作,代码如下:

# 导入子模块

fromscipy importstats

# 饮料净含量数据

data = [558,551,542,557,552,547,551,549,548,551,553,557,548,550,546,552]

# 单样本t检验

stats.ttest_1samp(a = data, # 指定待检验的数据

popmean = 550, # 指定总体均值

# 指定缺失值的处理办法(如果数据中存在缺失值,则检验结果返回nan)

nan_policy = 'propagate'

)

out:

Ttest_1sampResult(statistic=0.7058009503746899, pvalue=0.49112911593287567)

如上结果所示,ttest_1samp函数返回两部分的结果,一部分是t统计量,另一部分是概率p值。其中,t统计量与上文手工计算的结果一致,从概率p值来看,其值大于0.05,故不能拒绝原假设。

二、独立样本t检验

独立样本t检验,是针对两组不相关样本(各样本量可以相等也可以不相等),检验它们在某数值型指标上,均值之间的差异。对于该检验方法而言,同样需要满足两个前提假设,即样本服从正态分布,且样本之间不存在相关性。与单样本t检验相比,还存在一个非常重要的差异,就是构造t统计量时需要考虑两组样本的方差是否满足齐性(即方差相等)。下面利用统计学中的四步法完成独立样本的t检验:

步骤一:提出原假设和备择假设

步骤二:构造t统计量

当两组样本的方差相等时

其中,n1为样本组1的样本量,n2为样本组2的样本量,由两组样本的方差构成,它的计算公式为:

在原假设满足的情况下,t统计量服从自由度为n1+n2-2的t分布。

当两组样本的方差不相等时

其中,df为方差不相等时,t统计量的自由度,其计算公式如下:

步骤三:计算t统计量

根据步骤二中的计算公式,便可以轻松地得到t统计量的值,这里不妨以前文介绍的服务员小费数据为例,判断男女顾客在支付小费金额上是否存在显著差异。需要注意的是,在计算t统计量之前,应该检验两样本之间的方差是否相等。

读者在使用Python时,可以借助于scipy子模块stats中的levene函数实现方差齐性的检验,借助于ttest_ind函数实现独立样本t检验。接下来结合这两个函数,完成小费金额的t检验,代码及输出结果如下:

# 男性客户支付的小费

male_tips = tips.loc[tips.sex == 'Male', 'tip']

# 男性客户支付的小费

female_tips = tips.loc[tips.sex == 'Female', 'tip']

# 检验两样本之间的方差是否相等

stats.levene(male_tips, female_tips)

out:

LeveneResult(statistic=1.9909710178779405, pvalue=0.1595236359896614)

步骤四:对比结果下结论

如上结果所示,经过方差齐性检验后,发现统计量所对应的概率p值大于0.05,说明两组样本之间的方差满足齐性。所以,在计算t统计量的值时,应该选择方差相等所对应的公式。

三、配对样本t检验

配对样本t检验,是针对同一组样本在不同场景下,某数值型指标均值之间的差异。实际上读者也可以将该检验理解为单样本t检验,检验的是两配对样本差值的均值是否等于0,如果等于0,则认为配对样本之间的均值没有差异,否则存在差异。所以,该检验也遵循两个前提假设,即正态性分布假设和样本独立性假设。下面利用统计学中的四步法完成配对样本的t检验:

步骤一:提出原假设和备择假设

步骤二:构造t统计量

其中,xbar为配对样本差的均值,s为配对样本差的标准差。在原假设满足的情况下,t统计量服从自由度为n-1的t分布。

步骤三:计算t统计量

根据步骤二中的计算公式,可以计算得到配对样本t检验的统计量值,这里不妨以我国各省2016年和2017年的人均可支配收入数据为例(数据来源于中国统计局),判断2016年和2017年该指标是否存在显著差异。读者既可以选择实现单样本t检验的ttest_1samp函数,也可以直接选择实现配对样本t检验的ttest_rel函数。接下来结合这两个函数,完成可支配收入的t检验,代码如下:

# 读取人均可支配收入数据

ppgnp = pd.read_excel(r'C:UsersAdministratorDesktopPPGNP.xlsx')

# 计算两年人均可支配收入之间的差值

diff = ppgnp.PPGNP_2017-ppgnp.PPGNP_2016

# 使用ttest_1samp函数计算配对样本的t统计量

stats.ttest_1samp(a = diff, popmean = 0)

out:

Ttest_1sampResult(statistic=13.983206457471795, pvalue=1.1154473504425075e-14)

# 使用ttest_rel函数计算配对样本的t统计量

stats.ttest_rel(a = ppgnp.PPGNP_2017, b = ppgnp.PPGNP_2016)

out:

Ttest_relResult(statistic=13.983206457471795, pvalue=1.1154473504425075e-14)

步骤四:对比结果下结论

在步骤三中,不论采用单样本的t检验方法,还是采用配对样本的t检验方法,得到的t统计量都是相同的。从结果来看,由于概率p值远远小于0.05,故不能接受原假设,即认为2016年和2017年我国人均可支配收入是存在显著差异的。

结语

本期的内容就介绍到这里,如果你有任何问题,欢迎在公众号的留言区域表达你的疑问。同时,也欢迎各位朋友继续转发与分享文中的内容,让更多的人学习和进步。返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3