数据科学家应知必会的6种常见概率分布

您所在的位置:网站首页 概率论常用分布图像 数据科学家应知必会的6种常见概率分布

数据科学家应知必会的6种常见概率分布

2023-08-27 07:57| 来源: 网络整理| 查看: 265

前言一常见数据类型 离散型数据连续型数据 二分布类型 伯努利分布Bernoulli Distribution均匀分布Uniform Distribution二项分布Binomial Distribution正态分布Normal Distribution泊松分布Poisson Distribution指数分布Exponential Distribution 三分布之间的关系 伯努利分布和二项分布泊松分布和二项分布正态分布和二项分布 正态分布和泊松分布指数分布和泊松分布 总结

CSDN:http://blog.csdn.net/kicilove/article/

前言

假设你是个大学老师。 在检查了一周的作业后,对学生进行了打分。 让录分员创建一个包含所有学生成绩的电子表格,要求是只含分数不含学生姓名等信息。

这里写图片描述

于是乎,录分员一个大粗心,漏录了好几个分数,介个时候不知道把谁给漏录了。来看看怎么解决这个问题吧。

一种方法是可视化已录数据,并从中发现某些数据中的趋势。

这里写图片描述

上面这个图就是画出来的数据的频率分布图。 可以从图的边缘隐约看到一条光滑的曲线可以用来定义我们的数据,但是我们也得注意到一个异常,有个段的柱条缺半截似的,也就是这一段分数范围内的频率异常低。所以最好是能有些值来把这个短半截给补上。

这就是一个现实生活中用数据分析解决问题的一个例子。对任何科学家而言,不管你是个学生或者是专家,分布是一个必知的概念。因为这是分析和统计推断的基础。

概率概念给了我们计算它的方法,分布才是帮我们看清数据背后的暗泉涌动。

目录:

常见数据类型分布类型 伯努利分布(Bernoulli Distribution)均匀分布(Uniform Distribution)二项分布(Binomial Distribution)正态分布(Normal Distribution)泊松分布(Poisson Distribution)指数分布(Exponential Distribution)分布之间的关系测一测 一、常见数据类型

在正式的解释分布之前,我们先来看一看平时遇到的数据。数据可大致分为离散型数据和连续型数据。

离散型数据

离散型数据顾名思义就是只取几个特定的值。例如:当你掷骰子的时候,结果只有1,2,3,4,5,6,不会出现类似1.5,2.5。

连续型数据

在一个给定的范围内,连续型数据可以取任意值。这个范围可以是有限的或者是无穷的。例如:一个人的体重或者身高,可以取值54kg,54.4kg,54.33333kg等等都没有问题。

下面就开始介绍分布的类型。

二、分布类型 伯努利分布(Bernoulli Distribution)

首先从最简单的分布开始,伯努利分布实际上是一个听起来最容易理解的分布。

伯努利分布一次实验有两个可能的结果,比如1代表success及0代表failure。随机变量 X 一个取值为1并代表成功,成功概率为 p ,一个取值为0表示失败,失败概率为q或者说 1−p 。

这里,概率分布函数为 px(1−p)1−x ,其中 x∈(0,1) ,我们也可以写成如下形式:

P(x)={1−p,p,x=0x=1

成功和失败的概率没必要相同,也就是没必要都是0.5,但是这俩概率加和应该为1,比如可以是下面的图:

这里写图片描述

这个图就是 p(success)=0.15,p(failure)=0.85 。

下面说一下随机变量的期望,一个分布的期望就是这个分布的均值。服从伯努利分布的随机变量 X 的期望值就是:

E(X)=1∗p+0∗(1−p)=p

服从伯努利分布的随机变量的方差是:

V(X)=E(X2)−[E(X)]2=p−p2=p(1−p)

还有许多伯努利分布的例子,比如说明天是否会下雨,今天会不会去健身,明天乒乓球比赛是不是会赢。

均匀分布(Uniform Distribution)

当你掷骰子的时候,结果出现1到6中的任何一个,而任何一个结果出现的概率都是相同的,这就是均匀分布最原始的雏形。你可能看出来了,与伯努利分布不同的是,这 n 个出现的结果的概率都是相同的。

一个随机变量X为均匀分布是指密度函数如下:

f(x)=1b−a−∞ V(X)=(b−a)212

标准的均匀分布的密度参数为 a=0 和 b=0 ,所以对于标准的均匀分布的密度函数为:

f(x)={1,0,0≤x≤1otherwise

二项分布(Binomial Distribution)

我们假定一个随机变量,比如 X ,表示你赢得比赛的次数。 X可能的值是什么? 它可以是任何数字,赢得比赛的次数。

如果就两个可能的结果。 成功,失败。 因此,成功概率= 0.5,失败的概率可以容易地计算为: q=p−1=0.5 。

只有两种结果是可能的分布,如成功或失败,以及所有试验的成功和失败概率相同的情况称为二项分布。

发生结果的可能性不同时, 前面的例子如果实验成功的概率是0.2,那么失败的概率可以很容易地计算出来, q=1−0.2=0.8 。

每次试验都是独立的,因为之前的结果并不决定或影响当前的结果。 只有两次重复n次的可能结果的实验称为二项式。 二项分布的参数是 n 和p,其中 n 是试验的总数,p是每个试验中成功的概率。

基于上述解释,二项分布的性质是:

每次实验独立试验中只有两种可能的结果 - 成功或失败。共进行了 n 次相同的试验。 所有试验的成功和失败的概率是相同的。 (试验是相同的。)

二项分布的数学表达式由下式给出:

P(x)=n!(n−x)!x!pxqn−x

一个二项分布图,其中成功的概率不等于失败的概率长这样:

这里写图片描述

成功概率与失败概率相等,长这样:

这里写图片描述

二项分布均值和方差:

Mean -> μ=n∗p

Variance -> Var(X)=n∗p∗q

正态分布(Normal Distribution)

正态分布可以表示宇宙中大多数的事件发生情况。 如果任何分布具有以下特征,则称为正态分布:

均值、中位数、众数在一个分布中取相同的值;分布曲线关于 x=μ 对称;曲线下面的面积总和为;中心位置的左半边和右半边对应位置的概率取值相同。

正态分布与二项分布有很大的不同。 但是,如果试验次数接近无穷大,则形状将非常相似。

服从正态分布的随机变量 X 的密度函数为:

f(x)=12πσ−−−√e{−12(x−μσ)2}−∞ Var(X)=σ2

这里 μ (mean)和 σ (standard deviation)是两个参数,随机变量 X∼N(μ,σ) 的不同取值的变化图如下:

这里写图片描述

标准正态分布的均值为0,方差为1,密度图如下:

f(x)=12π−−√e−x22∞ Var(X)=μ

指数分布(Exponential Distribution)

我们再来考虑一下呼叫中心的例子。 想想通话间的时间间隔是多少? 指数分布来解决我们的问题。 指数分布对呼叫之间的时间间隔建模。

其他例子: 1. 两站地铁到达之间的时间长度 2. 到达加油站的时间长度 3. 空调的使用寿命

指数分布广泛用于生存分析。 从机器的预期寿命到人的预期寿命,指数分布可用来传递这些结果。

随机变量 X 服从指数分布,它的PDF 为:

f(x)=λeλx,x≥0

参数 λ>0 也叫做速率。

对于生存分析, λ 被称为设备在任何时间 t 的故障率,假设它存活到t。

服从指数分布的随机变量X的均值和方差:

Mean -> E(X)=1λ

Variance -> Var(X)=(1λ)2

此外,速率越大,曲线越下降快,速率越低,曲线越平滑。 下图显示了这一点:

这里写图片描述

为了简化计算,下面给出了一些公式。 P{X≤x}=1−e−λx 对应于 x 左边密度曲线下的面积。

P{X>x}=1−e−λx对应于 x 右侧密度曲线下的面积。

P{x1 ∞ 2. 每次试验成功的概率相同,无穷小或者 p ->0 3. np=λ,有限。

正态分布和二项分布 & 正态分布和泊松分布

正态分布是在以下条件下二项分布的另一种极限形式,条件如下: 1. 试验次数无限大 n -> ∞ 2. p 和q都不是无限小的。

正态分布也是参数 λ -> ∞的泊松分布的一个极限情况。

指数分布和泊松分布

如果随机事件之间的时间遵循速率为 λ 的指数分布,那么长度为t的时间段内的事件总数遵循具有参数 λt 的泊松分布。

总结

概率分布在许多领域都很普遍,即保险学,物理学,工程学,计算机科学甚至社会科学,其中心理学和医学学生广泛使用概率分布。 它有一个简单的应用程序和广泛的使用。 这篇文章强调了在日常生活中观察到的六个重要分布,并解释了它们的应用。 现在你将能够识别,关联和区分这些分布。

CSDN:http://blog.csdn.net/kicilove/article/



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3