编程数学之概率分布

2024-07-11 14:54| 来源: 网络整理| 查看: 265

摘要：在数据科学中，统计地位尤为显著。其在数据分析的基础上，研究如何测定、收集、整理、归纳和分析反映数据规律，以便给出正确消息的科学。通过揭示数据背后的规律和隐藏信息，给相关角色提供参照价值，做出相应的决策。这在数据挖掘、自然语言处理、机器学习都广泛应用。本文主要介绍概率分布，让读者最短时间掌握基本的统计知识。（本文原创，转载必须注明出处.）

几何分布定义

几何分布是离散型概率分布，（如图所示）。在n次伯努利试验中，试验k次才得到第一次成功的机率。

详细的说，是：前k-1次皆失败，第k次成功的概率。几何分布公式如下：$P(X=r)=q^{r-1}p$

计算公式

成功概率为p，失败概率为q，试验次数为r，则有：

第r次试验第一次成功：$ P(X=r)=pq^{r-1} $ 需要试验r次以上才第一次成功：$ P(X>r)=q^{r} $ 试验r次或者不到r次才第一次成功：\( P(X

优缺点优点：在试验次数一定，求成功次数时，几何分布显示不适合的情况下，给予这类问题二项分布能更好的解决。缺点：但是面对试验次数不固定，发生事件概率的情况下，显然几何分布与二项分布都不能解决，这里也体现出泊松分布的优势二项分布的期望

$E(X)=np$

几何分布的方差

$Var(X)=npq,(q=1-p)$

应用范围应用科学：数学以及相关领域适用领域范围：自然数学，应用数学，高等数学，概率论射击比赛等正态分布正态分布描述

正态分布又名高斯分布, 以德国数学家卡尔·弗里德里希·高斯的姓冠名，是一个在数学、物理及工程等领域都非常重要的概率分布，由于这个分布函数具有很多非常漂亮的性质，使得其在诸多涉及统计科学离散科学等领域的许多方面都有着重大的影响力。比如图像处理中最常用的正态分布函数，下图是正态分布示意图。

若随机变量$ X $服从一个位置参数为 $ \mu$、尺度参数为$\sigma$ 的概率分布，记为：$ X\sim N(\mu ,\sigma ^{2})$,则其概率密度函数为

$f(x)={1 \over \sigma {\sqrt {2\pi }}}\,e^{-{(x-\mu )^{2} \over 2\sigma ^{2}}}$

正态分布的数学期望值或期望值$ \mu$等于位置参数，决定了分布的位置；其方差$\sigma^2$ 的开平方或标准差$\sigma$ 等于尺度参数，决定了分布的幅度。

定义

正态分布概率函数密度曲线可以表示为：

$f(x)={1 \over \sigma {\sqrt {2\pi }}}\,e^{-{(x-\mu )^{2} \over 2\sigma ^{2}}}$

称$X$服从正态分布，记为$X \sim N(m,s_2)$，其中$\mu$为均值，$\sigma$为标准差。标准正态分布另正态分布：$ \mu=0$,$ \sigma=1 $，公式简化为：

$f(x)={1 \over {\sqrt {2\pi }}}\,e^{-{x^{2} \over 2}}$

正态分布特点正态分布函数密度曲线在横轴上方均数处最高。正态分布函数密度曲线以均数为中心，左右对称。正态分布函数密度曲线有两个参数，即均数（μ）和标准差（s）。μ是位置参数，当s固定不变时，μ越大，曲线沿横轴,越向右移动；反之，μ越小，则曲线沿横轴,越向左移动。是形状参数，当μ固定不变时，s越大，曲线越平阔；s越小，曲线越尖峭。通常用N表示均数为μ，方差为s的正态分布。用N（0，1）表示标准正态分布。正态分布函数密度曲线下面积的总和为1。正态分布的期望

$E(X)=\mu$

几何分布的方差

$Var(X)=\sigma^2$

正态概率计算步骤

第一步：首先确定数据是否符合正态分布，确定正态分布的均值和方差。对一些不符和正态分布的数据进行取对数或者样本重新排列称符合正态分布的标准后，在确定均值和方差。

第二步：标准化（平移，收放）：对一般正态分布进行标准化，标准化的过程为先平移，平移过程用公式表达即$ x-\mu $，再对结果进行收放，收放过程即$\frac{y}{\sigma}$，其中$y=x-\mu $ 。则标准化公式：$Z=\frac{(x-\mu)}{\sigma} $；其中Z为标准分，$X$为随机变量，$\mu$为均值，$\sigma$为标准差。

第三步：使用概率表：通过标准分，进行查表（标准正态分布概率表），得到具体的概率。

正态分布的优缺点优点：对于社会上遇到的大部分问题，其概率分布规律基本都满足正态分布，为了计算某种概率，我们就可以通过数学建模利用正态分布方便解决问题。缺点：无法近似估算符合几何分布的问题，无法精确解决离散数据概率。应用场景不适合应用场景：数据离散性太大，数据不符合正态分布特点，通过对数据进行取对数或者重新排序亦无法达到正态分布特点，无法得出均数（期望）和标准差。适用场景：连续型数据或者数据离散性小，数据基本符合正态分布特点，或者对不符合的数据进行取对数或者样本重新排序达到正态分布特点，有具体的均数（期望）和标准差。中心极限定理

正态分布有一个非常重要的性质：在特定条件下，大量统计独立的随机变量的平均值的分布趋于正态分布，这就是中心极限定理。中心极限定理的重要意义在于，根据这一定理的结论，其他概率分布可以用正态分布作为近似。

参数为n和 p的二项分布，在n相当大而且 p接近0.5时近似于正态分布。近似正态分布平均数为$\mu=np$，且方差为$ \sigma ^{2}=np(1-p)$ 泊松分布带有参数$\lambda$ 当取样样本数很大时将近似正态分布$\lambda$ 。近似正态分布平均数为 $\mu=\lambda$ 且方差为$\sigma^2=\lambda$。泊松分布定义

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数，电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。泊松分布的概率质量函数为：

$P(X=k)={\frac {e^{-\lambda }\lambda ^{k}}{k!}}$

泊松分布的参数λ是单位时间（或单位面积）内随机事件的平均发生率。

计算公式

X服从参数为$\lambda$的泊松分布，记为$ X\sim P(\lambda )$。单独事件在给定区间随机独立发生，已知事件平均发生数且有限次数，通过以下计算：

$P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!},(k=0,1,...,n)$

泊松分布的条件单独事件在给定区间内随机独立的发生，给定区别可以是时间或者空间。（一周、一英里）已知该区间内的事件平均发生次数（发生率），且为有限数值。该事件平均发生次数用λ表示。泊松分布形状特点不需要一系列试验，描述事件特定区间发生次数。两个独立的泊松分布相加也符合泊松分布。（即n>50且p

【本文地址】

编程数学之概率分布

编程数学之概率分布

今日新闻

推荐新闻