正态分布、t分布、卡方分布、F分布的关系与差异

您所在的位置：网站首页 › t分布的意义与应用 › 正态分布、t分布、卡方分布、F分布的关系与差异

正态分布、t分布、卡方分布、F分布的关系与差异

2024-07-10 06:38| 来源: 网络整理| 查看: 265

要理解这些分布，要从基础的正态分布开始。

1. 正态分布

下面是维基百科对正态分布的介绍：正态分布（英语：normal distribution）又名高斯分布（英语：Gaussian distribution），是一个非常常见的连续概率分布。若随机变量 X服从一个位置参数为 ?、尺度参数为 σ 的正态分布，记为： X ∼ N ( μ , σ ) X \sim N(\mu, \sigma) X∼N(μ,σ) 则其概率密度函数为 f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}} f(x)=σ2π 1e−2σ2(x−μ)2 正态分布的数学期望值或期望值 ? 等于位置参数，决定了分布的位置；其方差 σ2的开平方或标准差 σ 等于尺度参数，决定了分布的幅度。通常所说的标准正态分布是位置参数? =0，尺度参数 σ2 = 1的正态分布。

下面是正态分布图(来自维基)：

2. t分布 2.1 概念

在概率论和统计学中，学生t-分布（Student’s t-distribution）可简称为t分布，用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知（例如在样本数量足够多时），则应该用正态分布来估计总体均值。

假设 X是呈正态分布的独立的随机变量（随机变量的期望值是 ? ，方差是 σ2但未知）。令：

X ‾ n = X 1 + ⋯ + X n n {\overline {X}}_{n}= {\frac {X_{1}+\cdots +X_{n}}{n}} Xn=nX1+⋯+Xn

为样本均值。

S n 2 = ∑ i = 1 n ( X i − X ‾ n ) 2 n − 1 {S_{n}}^{2}={\frac {\sum _{{i=1}}^{n}\left(X_{i}-\overline {X}_{n}\right)^{2}}{n-1}} Sn2=n−1∑i=1n(Xi−Xn)2

为样本方差。

T值定义： T = X ‾ n − μ S n n T={\frac {{\overline {X}}_{n}-\mu }{\frac {S_{n}}{\sqrt {n}}}} T=n SnXn−μ

T的概率密度函数是： f ( t ) = Γ ( ν + 1 2 ) ν π Γ ( ν 2 ) ( 1 + t 2 ν ) − ( ν + 1 ) 2 f(t)={\frac {\Gamma ({\frac {\nu +1}{2}})}{{\sqrt {\nu \pi \,}}\,\Gamma ({\frac {\nu }{2}})}}(1+{\frac {t^{2}}{\nu }})^{\frac {-(\nu +1)}{2}} f(t)=νπ Γ(2ν)Γ(2ν+1)(1+νt2)2−(ν+1) 参数 v = n − 1, 一般被称为自由度。 T的分布称为t-分布。关于伽玛函数，不再具体展开，可点击链接参考维基百科。

2.2 分布图

T的概率密度函数的形状类似于标准正态分布（?=0, σ2=1），但更低更宽。随着自由度 v 的增加，则越来越接近均值为0方差为1的正态分布。 t-分布密度 (红色曲线) 在自由度为 1, 2, 3, 5, 10, 30比较于标准正态分布(蓝色曲线). 前幅图用绿色曲线表示. T分布

2.3 应用

t分布是对两个样本均值差异进行显著性测试的学生t检验的基础。学生t检验改进了Z检验（Z-test），因为Z检验以母体标准差已知为前提。虽然在样本数量大（超过30个）时，可以应用Z检验来求得近似值，但Z检验用在小样本会产生很大的误差，因此必须改用学生t检验以求准确。

在母体标准差未知的情况下，不论样本数量大或小皆可应用学生t检验。在待比较的数据有三组以上时，因为误差无法被压低，此时可以用变异数分析（ANOVA）代替学生t检验。

3.卡方分布 3.1 概念

卡方分布（chi-square distribution, χ²-distribution，或写作χ²分布）是概率论与统计学中常用的一种概率分布。若k个随机变量 Z1、……、 Zk是相互独立，符合标准正态分布的随机变量（数学期望为0、方差为1），则随机变量Z的平方和 X = ∑ i = 1 k Z i 2 X=\sum _{{i=1}}^{k}Z_{i}^{2} X=i=1∑kZi2 被称为服从自由度为 k 的卡方分布，记作 X ∼ χ 2 ( k ) 或 X ∼ χ k 2 X \sim \chi ^{2}(k) \space 或 \space X \sim \chi _{k}^{2} X∼χ2(k) 或 X∼χk2

3.2 分布图

下面是卡方分布的概率密度函数：

3.3 应用

卡方分布是一种特殊的伽玛分布，是统计推断中应用最为广泛的概率分布之一，例如假设检验和置信区间的计算。

由卡方分布延伸出来皮尔森卡方检定常用于：

样本某性质的比例分布与总体理论分布的拟合优度（例如某行政机关男女比是否符合该机关所在城镇的男女比）；同一总体的两个随机变量是否独立（例如人的身高与交通违规的关联性）；二或多个总体同一属性的同素性检定（意大利面店和寿司店的营业额有没有差距）。

4. F分布 4.1 概念

F分布定义：设X、Y为两个独立的随机变量，X服从自由度为k1的卡方分布，Y服从自由度为k2的卡方分布，F-分布是这两个卡方分布变量X、Y除以各自的自由度后的比率的分布：

X 1 / k 1 X 2 / k 2 = X 1 / X 2 k 1 / k 2 {\frac {X_{1}/k_{1}}{X_{2}/k_{2}}}={\frac {X_{1}/X_{2}}{k_{1}/k_{2}}} X2/k2X1/k1=k1/k2X1/X2

4.2 概率密度函数

F分布的形状依赖于分子和分母的自由度，分布不对称，在第一象限。 F分布

4.3 应用

F-分布（F-distribution）是一种连续概率分布，被广泛应用于似然比率检验，特别是ANOVA中。

在下篇F检验的应用着重介绍了两个应用： a) 对于正态总体来说，两个总体的方差比较可以用F-分布来检验； b) F检验应用于方差分析。

小结

对于来自呈正态分布而方差未知的总体的小样本，T值类似于基于小样本进行的正态分布标准化转换，T的概率密度函数的形状也类似于标准正态分布，且随着自由度增加会越来越接近。t分布是对两个样本均值差异进行显著性测试的学生t检验的基础，在母体标准差未知的情况下，不论样本数量大或小皆可应用学生t检验。

卡方分布是k个独立的标准正态分布变量的平方和服从的分布，自由度为k，可用于计算假设检验和置信区间，由其延伸的皮尔森卡方检验很常用。

F分布是基于卡方分布的。

【本文地址】

正态分布、t分布、卡方分布、F分布的关系与差异

正态分布、t分布、卡方分布、F分布的关系与差异

今日新闻

推荐新闻