正态分布、t分布、卡方分布、F分布的关系与差异

您所在的位置:网站首页 t分布的意义与应用 正态分布、t分布、卡方分布、F分布的关系与差异

正态分布、t分布、卡方分布、F分布的关系与差异

2024-07-10 06:38| 来源: 网络整理| 查看: 265

要理解这些分布,要从基础的正态分布开始。

1. 正态分布

下面是维基百科对正态分布的介绍: 正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian distribution),是一个非常常见的连续概率分布。若随机变量 X服从一个位置参数为 ?、尺度参数为 σ 的正态分布,记为: X ∼ N ( μ , σ ) X \sim N(\mu, \sigma) X∼N(μ,σ) 则其概率密度函数为 f ( x ) = 1 σ 2 π   e − ( x − μ ) 2 2 σ 2 f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}} f(x)=σ2π ​1​e−2σ2(x−μ)2​ 正态分布的数学期望值或期望值 ? 等于位置参数,决定了分布的位置;其方差 σ2的开平方或标准差 σ 等于尺度参数,决定了分布的幅度。通常所说的标准正态分布是位置参数? =0,尺度参数 σ2 = 1的正态分布。

下面是正态分布图(来自维基): 正态分布

2. t分布 2.1 概念

在概率论和统计学中,学生t-分布(Student’s t-distribution)可简称为t分布,用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

假设 X是呈正态分布的独立的随机变量(随机变量的期望值是 ? ,方差是 σ2但未知)。 令:

X ‾ n = X 1 + ⋯ + X n n {\overline {X}}_{n}= {\frac {X_{1}+\cdots +X_{n}}{n}} Xn​=nX1​+⋯+Xn​​

为样本均值。

S n 2 = ∑ i = 1 n ( X i − X ‾ n ) 2 n − 1 {S_{n}}^{2}={\frac {\sum _{{i=1}}^{n}\left(X_{i}-\overline {X}_{n}\right)^{2}}{n-1}} Sn​2=n−1∑i=1n​(Xi​−Xn​)2​

为样本方差。

T值定义: T = X ‾ n − μ S n n T={\frac {{\overline {X}}_{n}-\mu }{\frac {S_{n}}{\sqrt {n}}}} T=n ​Sn​​Xn​−μ​

T的概率密度函数是: f ( t ) = Γ ( ν + 1 2 ) ν π     Γ ( ν 2 ) ( 1 + t 2 ν ) − ( ν + 1 ) 2 f(t)={\frac {\Gamma ({\frac {\nu +1}{2}})}{{\sqrt {\nu \pi \,}}\,\Gamma ({\frac {\nu }{2}})}}(1+{\frac {t^{2}}{\nu }})^{\frac {-(\nu +1)}{2}} f(t)=νπ ​Γ(2ν​)Γ(2ν+1​)​(1+νt2​)2−(ν+1)​ 参数 v = n − 1, 一般被称为自由度。 T的分布称为t-分布。 关于伽玛函数,不再具体展开,可点击链接参考维基百科。

2.2 分布图

T的概率密度函数的形状类似于标准正态分布(?=0, σ2=1),但更低更宽。随着自由度 v 的增加,则越来越接近均值为0方差为1的正态分布。 t-分布密度 (红色曲线) 在自由度为 1, 2, 3, 5, 10, 30比较于标准正态分布(蓝色曲线). 前幅图用绿色曲线表示. T分布

2.3 应用

t分布是对两个样本均值差异进行显著性测试的学生t检验的基础。学生t检验改进了Z检验(Z-test),因为Z检验以母体标准差已知为前提。虽然在样本数量大(超过30个)时,可以应用Z检验来求得近似值,但Z检验用在小样本会产生很大的误差,因此必须改用学生t检验以求准确。

在母体标准差未知的情况下,不论样本数量大或小皆可应用学生t检验。 在待比较的数据有三组以上时,因为误差无法被压低,此时可以用变异数分析(ANOVA)代替学生t检验。

3.卡方分布 3.1 概念

卡方分布(chi-square distribution, χ²-distribution,或写作χ²分布)是概率论与统计学中常用的一种概率分布。 若k个随机变量 Z1、……、 Zk是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和 X = ∑ i = 1 k Z i 2 X=\sum _{{i=1}}^{k}Z_{i}^{2} X=i=1∑k​Zi2​ 被称为服从自由度为 k 的卡方分布,记作 X ∼ χ 2 ( k )   或   X ∼ χ k 2 X \sim \chi ^{2}(k) \space 或 \space X \sim \chi _{k}^{2} X∼χ2(k) 或 X∼χk2​

3.2 分布图

下面是卡方分布的概率密度函数: 卡方分布

3.3 应用

卡方分布是一种特殊的伽玛分布,是统计推断中应用最为广泛的概率分布之一,例如假设检验和置信区间的计算。

由卡方分布延伸出来皮尔森卡方检定常用于:

样本某性质的比例分布与总体理论分布的拟合优度(例如某行政机关男女比是否符合该机关所在城镇的男女比); 同一总体的两个随机变量是否独立(例如人的身高与交通违规的关联性); 二或多个总体同一属性的同素性检定(意大利面店和寿司店的营业额有没有差距)。

4. F分布 4.1 概念

F分布定义:设X、Y为两个独立的随机变量,X服从自由度为k1的卡方分布,Y服从自由度为k2的卡方分布,F-分布是这两个卡方分布变量X、Y除以各自的自由度后的比率的分布:

X 1 / k 1 X 2 / k 2 = X 1 / X 2 k 1 / k 2 {\frac {X_{1}/k_{1}}{X_{2}/k_{2}}}={\frac {X_{1}/X_{2}}{k_{1}/k_{2}}} X2​/k2​X1​/k1​​=k1​/k2​X1​/X2​​

4.2 概率密度函数

F分布的形状依赖于分子和分母的自由度,分布不对称,在第一象限。 F分布

4.3 应用

F-分布(F-distribution)是一种连续概率分布,被广泛应用于似然比率检验,特别是ANOVA中。

在下篇F检验的应用着重介绍了两个应用: a) 对于正态总体来说,两个总体的方差比较可以用F-分布来检验; b) F检验应用于方差分析。

小结

对于来自呈正态分布而方差未知的总体的小样本,T值类似于基于小样本进行的正态分布标准化转换,T的概率密度函数的形状也类似于标准正态分布,且随着自由度增加会越来越接近。t分布是对两个样本均值差异进行显著性测试的学生t检验的基础,在母体标准差未知的情况下,不论样本数量大或小皆可应用学生t检验。

卡方分布是k个独立的标准正态分布变量的平方和服从的分布,自由度为k,可用于计算假设检验和置信区间,由其延伸的皮尔森卡方检验很常用。

F分布是基于卡方分布的。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3