正态分布、t分布、卡方分布、F分布的关系与差异 |
您所在的位置:网站首页 › t分布的意义与应用 › 正态分布、t分布、卡方分布、F分布的关系与差异 |
要理解这些分布,要从基础的正态分布开始。 1. 正态分布下面是维基百科对正态分布的介绍: 正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian distribution),是一个非常常见的连续概率分布。若随机变量 X服从一个位置参数为 ?、尺度参数为 σ 的正态分布,记为: X ∼ N ( μ , σ ) X \sim N(\mu, \sigma) X∼N(μ,σ) 则其概率密度函数为 f ( x ) = 1 σ 2 π   e − ( x − μ ) 2 2 σ 2 f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}} f(x)=σ2π 1e−2σ2(x−μ)2 正态分布的数学期望值或期望值 ? 等于位置参数,决定了分布的位置;其方差 σ2的开平方或标准差 σ 等于尺度参数,决定了分布的幅度。通常所说的标准正态分布是位置参数? =0,尺度参数 σ2 = 1的正态分布。 下面是正态分布图(来自维基): 在概率论和统计学中,学生t-分布(Student’s t-distribution)可简称为t分布,用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。 假设 X是呈正态分布的独立的随机变量(随机变量的期望值是 ? ,方差是 σ2但未知)。 令: X ‾ n = X 1 + ⋯ + X n n {\overline {X}}_{n}= {\frac {X_{1}+\cdots +X_{n}}{n}} Xn=nX1+⋯+Xn 为样本均值。 S n 2 = ∑ i = 1 n ( X i − X ‾ n ) 2 n − 1 {S_{n}}^{2}={\frac {\sum _{{i=1}}^{n}\left(X_{i}-\overline {X}_{n}\right)^{2}}{n-1}} Sn2=n−1∑i=1n(Xi−Xn)2 为样本方差。 T值定义: T = X ‾ n − μ S n n T={\frac {{\overline {X}}_{n}-\mu }{\frac {S_{n}}{\sqrt {n}}}} T=n SnXn−μ T的概率密度函数是: f ( t ) = Γ ( ν + 1 2 ) ν π     Γ ( ν 2 ) ( 1 + t 2 ν ) − ( ν + 1 ) 2 f(t)={\frac {\Gamma ({\frac {\nu +1}{2}})}{{\sqrt {\nu \pi \,}}\,\Gamma ({\frac {\nu }{2}})}}(1+{\frac {t^{2}}{\nu }})^{\frac {-(\nu +1)}{2}} f(t)=νπ Γ(2ν)Γ(2ν+1)(1+νt2)2−(ν+1) 参数 v = n − 1, 一般被称为自由度。 T的分布称为t-分布。 关于伽玛函数,不再具体展开,可点击链接参考维基百科。 2.2 分布图T的概率密度函数的形状类似于标准正态分布(?=0, σ2=1),但更低更宽。随着自由度 v 的增加,则越来越接近均值为0方差为1的正态分布。 t-分布密度 (红色曲线) 在自由度为 1, 2, 3, 5, 10, 30比较于标准正态分布(蓝色曲线). 前幅图用绿色曲线表示. t分布是对两个样本均值差异进行显著性测试的学生t检验的基础。学生t检验改进了Z检验(Z-test),因为Z检验以母体标准差已知为前提。虽然在样本数量大(超过30个)时,可以应用Z检验来求得近似值,但Z检验用在小样本会产生很大的误差,因此必须改用学生t检验以求准确。 在母体标准差未知的情况下,不论样本数量大或小皆可应用学生t检验。 在待比较的数据有三组以上时,因为误差无法被压低,此时可以用变异数分析(ANOVA)代替学生t检验。 3.卡方分布 3.1 概念卡方分布(chi-square distribution, χ²-distribution,或写作χ²分布)是概率论与统计学中常用的一种概率分布。 若k个随机变量 Z1、……、 Zk是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和 X = ∑ i = 1 k Z i 2 X=\sum _{{i=1}}^{k}Z_{i}^{2} X=i=1∑kZi2 被称为服从自由度为 k 的卡方分布,记作 X ∼ χ 2 ( k ) 或 X ∼ χ k 2 X \sim \chi ^{2}(k) \space 或 \space X \sim \chi _{k}^{2} X∼χ2(k) 或 X∼χk2 3.2 分布图下面是卡方分布的概率密度函数: 卡方分布是一种特殊的伽玛分布,是统计推断中应用最为广泛的概率分布之一,例如假设检验和置信区间的计算。 由卡方分布延伸出来皮尔森卡方检定常用于: 样本某性质的比例分布与总体理论分布的拟合优度(例如某行政机关男女比是否符合该机关所在城镇的男女比); 同一总体的两个随机变量是否独立(例如人的身高与交通违规的关联性); 二或多个总体同一属性的同素性检定(意大利面店和寿司店的营业额有没有差距)。 4. F分布 4.1 概念F分布定义:设X、Y为两个独立的随机变量,X服从自由度为k1的卡方分布,Y服从自由度为k2的卡方分布,F-分布是这两个卡方分布变量X、Y除以各自的自由度后的比率的分布: X 1 / k 1 X 2 / k 2 = X 1 / X 2 k 1 / k 2 {\frac {X_{1}/k_{1}}{X_{2}/k_{2}}}={\frac {X_{1}/X_{2}}{k_{1}/k_{2}}} X2/k2X1/k1=k1/k2X1/X2 4.2 概率密度函数F分布的形状依赖于分子和分母的自由度,分布不对称,在第一象限。 F-分布(F-distribution)是一种连续概率分布,被广泛应用于似然比率检验,特别是ANOVA中。 在下篇F检验的应用着重介绍了两个应用: a) 对于正态总体来说,两个总体的方差比较可以用F-分布来检验; b) F检验应用于方差分析。 小结对于来自呈正态分布而方差未知的总体的小样本,T值类似于基于小样本进行的正态分布标准化转换,T的概率密度函数的形状也类似于标准正态分布,且随着自由度增加会越来越接近。t分布是对两个样本均值差异进行显著性测试的学生t检验的基础,在母体标准差未知的情况下,不论样本数量大或小皆可应用学生t检验。 卡方分布是k个独立的标准正态分布变量的平方和服从的分布,自由度为k,可用于计算假设检验和置信区间,由其延伸的皮尔森卡方检验很常用。 F分布是基于卡方分布的。 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |