作为一名数据分析师需要掌握统计学中的统计量&抽样分布什么,以及有哪些应用?

您所在的位置:网站首页 胃的分布有哪些 作为一名数据分析师需要掌握统计学中的统计量&抽样分布什么,以及有哪些应用?

作为一名数据分析师需要掌握统计学中的统计量&抽样分布什么,以及有哪些应用?

2023-04-01 20:50| 来源: 网络整理| 查看: 265

统计数据的抽样分布是一种概率分布,是通过从同一总体中抽取许多给定大小的随机样本而创建的。这些分布可以了解样本统计量如何因样本而异。

抽样分布对于推理统计至关重要,因为它们允许在其他可能值的更广泛背景下理解特定样本统计。至关重要的是可以计算与样本相关的概率。

抽样分布描述了各种样本统计的值的分类。

虽然均值的抽样分布是最常见的类型,但它们可以表征其他统计量,例如假设检验中的中位数、标准差、范围、相关性和检验统计量。

本文可以了解到:

统计量以及排序。代表性的机率密度函数包括正态分布、标准正态分布、卡方分布、t分布、F分布。机率密度函数的图形和横轴组成的面积始终为1。机率密度函数的图形和横轴组成的面积可以认为与比例及机率相同。统计量

设 X_1,X_2...,X_n 中 X_n 是从总体 X 中抽取的容量为 n 的一个样本,由此构建一个函数 T(X_1,X_2...,X_n) ,其中不依赖于任何位置的权重参数,则称函数 T(X_1,X_2...,X_n) 是一个统计量。

样本均值、样本比例、样本方差等都是统计量。统计量是样本的一个函数、是统计推断的基础。

次序统计量

一组样本的观测值 X_1,X_2...,X_n 由小到大排序,其中 X_1≤X_2≤...,≤X_n ,则称 X_1,X_2,...,X_n 为次序统计量。

中位数、分位数、四分位数等都是次序统计量。

比例

总体(或样本)中具有某种属性的单位与全部单位总数之比。

机率密度函数

以《三国志 11》武将武力数据距离,总体样本为 811 人。 分别以步长10、5、3、1步长举例进行直方图的计算。这么一个过程称为机率密度函数。

步长10

步长5

步长3

步长1

抽样分布样本统计量的概率分布,是一种理论分布。在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。随机变量是样本统计量,样本均值,样本比例,样本方差等。结果来自容量相同的所有可能样本。提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据。

样本均值之差的抽样分布

两个总体都为正态分布

X_1 ~ N(μ_1,σ_1^2) ,X_2 ~ N(μ_2,σ_2^2)

两个样本均值之差的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差。

E( \bar{x_1}-\bar{x_2})= μ_1 - μ_2

方差为各自的方差之和。

σ_{x_1-x_2}^2 = \frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}

正态分布

连续随机变量概率分布的一种,设 −\infty

因此我们在生成随机数据进行测试的时候需要输入两个内容,均值和标准差即可。确定的随机变量 X 的分布称为正态分布记为 N(μ,σ^2) 。

标准正态分布

面对的是数值型变量。

正态分布 N(μ,σ^2) 函数曲线下的面积

正常范围:68.27%的面积在平均值左右的一个标准差范围内优秀范围:95.45%的面积在平均值左右两个标准差2σ的范围内异常范围:99.73%的面积在平均值左右三个标准差3σ的范围内超常范围:99.99%的面积在平均值左右四个标准差4σ的范围内

例如:Z在数量上表示该新变量为该标准正态分布下标准差σ=1的倍数,根据正态分布计算对照表计算,范围是-3到+3。

推荐一个简单的可视化计算工具。标准正态分布表 计算可视化

例如:某学科考试平均分是 60,方差是 88,记作 X~N ( 60 , 88 ) ,计算[52,68]这个区间成绩的概率是多少?计算 [50,70] 这个区间成绩的概率是多少?

实际上求的是 P ( μ - σ < x < μ + σ) 的值。则 [52,68] 是1个 σ ,[50,70]是1.25个 σ 。然后拿上面的工具拖动以下就搞定了。

卡方分布

面对的是分类型变量。根据不同的自由度 (n) 图形变化也不一样。

n个独立同分布的随机变量,都服从标准正太分布,它们的平方和作为一个新的随机变量的分布,就是卡方分布。

自由度类似 y = ax + b 中的 a 的斜率,可以自有的变化从而对图形产生变化,如果数据集中有 n 个元素,可以有 n - 1 个元素自有原则,称为自由度。

卡方分布的特征:

随机变量的平方和,分布的变量值始终为正。分布的形状取决于其自由度 n 的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称。

卡方分布面积计算: 卡方分布表

t分布

我们平常说的t分布,都是指小样本的分布。但其实正态分布,可以算作t分布的特例。也就是说 t 分布,在大小样本中都是通用的。

F分布

随着自由度逐渐增大,t分布逐渐接近标准正态分布。

中心极限定理

从均值为μ,方差为 σ^2 的一个任意总体中抽取容量为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为 μ、方差为 σ^2/n 的正态分布。

简单来说:随机抽取的样本的均值等于总体的平均值,不管任何分布,任意总体样本均值均围绕总体平均值,且呈现正态分布。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3