卡方检验、T检验+F检验、方差分析、Z检验

您所在的位置:网站首页 方差分析怎么做独立性检验 卡方检验、T检验+F检验、方差分析、Z检验

卡方检验、T检验+F检验、方差分析、Z检验

#卡方检验、T检验+F检验、方差分析、Z检验| 来源: 网络整理| 查看: 265

1、卡方检验:

卡方检验是用途非常广的以卡方分布(深入浅出统计学有讲)为基础的一种假设检验方法,它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。

以运营为例:

卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别; 不同城市级别的消费者对买SUV车有没有什么区别;

举例:两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?

处理 发癌数 未发癌数 合计 发癌率% 甲组 52 19 71 73.24 乙组 39 3 42 92.86 合计 91 22 113 80.33

(52 19 39 3) 这四个数据是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表(fourfold table),或称2行2列表(2×2 contingency table)。从该资料算出的两组发癌率分别为73.24%和92.86%,两者的差别可能是抽样误差所致,亦可能是两组发癌率(总体率)确有所不同。这里可通过卡方检验来区别其差异有无统计学意义,检验的基本公式为: x^{2}=\sum \frac{(A-T)^{2}}{T}

式中A为实际数,以上四格表的四个数据就是实际数。T为理论数,是根据检验假设推断出来的;即假设这两组的发癌率本无不同,差别仅是由抽样误差所致。这里可将两组合计发癌率作为理论上的发癌率,即 91/113=80.3%,以此为依据便可推算出四格表中相应的四格的理论数。以上表资料为例检验如下。

检验步骤: 1. 建立检验假设 H0:两组发癌率有差别 H1:两组发癌率无差别 α=0.05

2. 计算理论数(TRC),计算公式为: TRC=nR x nC/n 式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。 第1行1列: 71×91/113=57.18 第1行2列: 71×22/113=13.82 第2行1列: 42×91/113=33.82 第2行2列: 42×22/113=8.18 以推算结果,可与原四项实际数并列成下表:

处理 发癌数 未发癌数 合计 甲组 52 ( 57.18 ) 19 ( 13.82 ) 71 乙组 39 ( 33.82 ) 3 ( 8.18 ) 42 合计 91 22 113

因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=57.18),则其余三项理论数都可用同行或同列合计数相减,直接求出。

3. 计算卡方值按公式代入 卡 方 =x^{2}=\sum \frac{(A-T)^{2}}{T}=\frac{(52-57.18)^{2}}{57.18}+\frac{(19-13.82)^{2}}{13.82}+\frac{(39-33.82)^{2}}{33.82}+\frac{(3-8.18)^{2}}{8.18}

4. 查卡方值表求P值 在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)*(2-1)=1,查卡方界值表,找到x_{0.05}^{2}(1)=3.84,而本题卡方=6.48即卡方>x_{0.05}^{2}(1),P<0.05,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组发癌率有差别。

通过实例计算,读者对卡方的基本公式有如下理解:若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零,而卡方永远为正值。又因为每一对理论数和实际数都加入卡方值中,分组越多,即格子数越多,卡方值也会越大,因而每考虑卡方值大小的意义时同时要考虑到格子数。因此自由度大时,卡方的界值也相应增大。

2、t 检验:

T检验是用于两个样本(或样本与群体)平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。

T检验的适用条件:

计量资料 小样本(不是必须) 独立性、正态性或近似正态、方差齐性(两小样本所对应的两总体方差相等,一般用F检验) 当样本例数较小时,要求样本取自正态总体;(当样本数少于30时,需要检验满足正态分布,若数量较多,根据中心极限定律,样本会趋向正态分布)

为什么小样本用t检验?从抽样研究所得的样本均数特点来看,只要样本量>60,(无论总体是否服从正态分布)抽样研究的样本均数服从或者近似服从正态分布;而如果样本量较小(参考样本量 5%, 接受原假设,即花瓣长度为4.0。

2.2:配对样本t检验:比较样本某个状况前后的对比有无差异

例如,现在有10个糖尿病的病人,给他们都用同种控制糖尿病的药物,看看这组病人在用药前和用药后有无差异

注:每个病人用药前后各自配对成一对,所以叫配对样本

其应用条件需要满足:计量资料、配对设计、小样本、正态分布

from scipy.stats import ttest_rel import pandas as pd x = [20.5, 18.8, 19.8, 20.9, 21.5, 19.5, 21.0, 21.2] y = [17.7, 20.3, 20.0, 18.8, 19.0, 20.1, 20.0, 19.1] # 配对样本t检验 print(ttest_rel(x, y)) # Ttest_relResult(statistic=1.8001958337730648, pvalue=0.1148515300576627) # 结论: 因为p值=0.1149>0.05, 故接受原假设, 认为在70℃时的平均断裂强力与80℃时的平均断裂强力间无显著差别

2.3:两样本t检验:比较两组样本有无差异

例如,现在有10男一组,10女一组,看看这不同性别的身高有无差异

其应用条件需要满足:计量资料、小样本、正态性之外,还需要方差齐性

如果方差齐,可进行两样本t检验,如果方差不齐,则需要其他的检验方法。

#取两个样本 iris_1 = iris[iris.petal_legth >= 2] iris_2 = iris[iris.petal_legth < 2] print(np.mean(iris_1['petal_legth'])) print(np.mean(iris_2['petal_legth'])) ''' H0: 两种鸢尾花花瓣长度一样 H1: 两种鸢尾花花瓣长度不一样 ''' import scipy.stats t, pval = scipy.stats.ttest_ind(iris_1['petal_legth'],iris_2['petal_legth']) print(t,pval) ''' p


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3