[更新中] 各种常见和不常见的概率分布及其概率函数简介 |
您所在的位置:网站首页 › 常见分布的表示 › [更新中] 各种常见和不常见的概率分布及其概率函数简介 |
Introduction
2019年3月更新:最近略忙,不,是超忙,更的会慢些,我先把《神经网络与深度学习》翻译完。 最近看了一些有关网络和图的文章,遇到一些陌生的概率分布,学习之后,在这里一并描述,持续更新,文末配有 Python Matplotlib 代码,用语通俗,错误难免,还请读者斧正,函数具体如下: Index Probability Density Function (PDF),概率密度函数Bimodal DistributionCumulative Distribution Function (CDF),累计分布函数Complementary Cumulative Distribution Function (CCDF),互补累积分布函数 Quantile Funtion (PPF),分位函数Dirac Delta Function,狄拉克 δ 函数Exponential Distribution,指数分布Heavy-tailed Distribution 重尾分布Long-tailed Distribution,长尾分布Subexponential Distribution,次指数分布Fat-tailed Distribution,肥尾分布 Log-normalPareto DistributionMarginal DistributionMarginal Joint Distribution Multimodal DistributionBimodal DistributionMultinomial Distribution Power-lawUnimodal DistributionWeibull DistributionZipfian Distribution (Zipf's law) Preliminaries我将用一个微博转发数据集 [12] 贯穿本文来说明一些分布的特性,数据集包含119,313条微博,每条微博最少被转发过10次,其中包含的信息有哪些人转发了这条微博,以及每次转发的时间。 Probability Density Function (PDF),概率密度函数 Bimodal Distribution Cumulative Distribution Function (CDF),累计分布函数定义:
F
X
(
x
)
=
P
(
X
≤
x
)
F_X(x) = P(X \le x)
FX(x)=P(X≤x) 两个关键点,一个
X
X
X, 一个
x
x
x,前者代表随机变量,后者代表一个实值。 举个例子,掷骰子,可能出现的结果
X
∈
{
1
,
2
,
3
,
4
,
5
,
6
}
X \in \{1, 2, 3, 4, 5, 6\}
X∈{1,2,3,4,5,6},
P
(
X
)
=
1
/
6
P(X) = 1/6
P(X)=1/6,假如我们让
x
=
6
x = 6
x=6,投一次骰子,结果小于等于
x
x
x 的概率是多少呢?答案是1。如果取
x
=
0
x = 0
x=0, 因为不可能投出小于等于零的骰子,所以概率
P
(
X
≤
0
)
=
0
P(X \le 0) = 0
P(X≤0)=0。 这个简单的例子表明,累积分布函数在
x
→
−
∞
x \rarr -\infty
x→−∞ 时等于
0
0
0,在
x
→
∞
x \rarr \infty
x→∞ 时等于
1
1
1,而且是非减、右连续的。 再用微博举一个例子,微博转发数满足下面这个累积分布: 假如现在有一正态分布
X
∼
N
(
1.7
,
0.
2
2
)
X \sim N(1.7, 0.2^2)
X∼N(1.7,0.22) 表示一个班级内50个学生的身高分布,其累积分布为: 定义:
F
ˉ
X
(
x
)
=
P
(
X
>
x
)
=
1
−
F
X
(
x
)
\bar{F}_X(x) = P(X > x) = 1 - F_X(x)
FˉX(x)=P(X>x)=1−FX(x) 定义很简单,用
1
1
1 减去原始的累积分布函数
F
X
(
x
)
F_X(x)
FX(x),还是上面那个例子: 又名 Percent Point Function,或者Inversed Cumulative Distribution Function,含义一目了然,就是CDF的反函数。以指数分布为例: 又称负指数分布, X ∼ exp ( λ ) X \sim \exp(\lambda) X∼exp(λ),常用来描述事件发生的间隔时间,话不多说上公式: f ( x ; λ ) = { λ e − λ x x ≥ 0 , 0 x < 0. f(x;\lambda) = \begin{cases} \lambda e^{-\lambda x} & x \ge 0, \\ 0 & x < 0. \end{cases} f(x;λ)={λe−λx0x≥0,x 0 \lim_{x \rarr \infty} e^{tx} \text{Pr}[X > x] = \infty \;\;\;\; \text{ for all } t > 0 x→∞limetxPr[X>x]=∞ for all t>0 明天再写,告辞。 我回来了,继续。我们上面介绍了指数分布,它的概率密度函数的尾巴长长的,像老鼠尾巴 ,而且越往后,其值越小, 1 / e x 1/e^x 1/ex。重尾分布不一样,它越往后尾巴不一定越小。对于一个常规老鼠,它的尾巴占身体重量的比例是很少的,如果一个老鼠的尾巴超级长,它尾巴重量的占比将不断上升,最后甚至超过身体的重量。有没有想到那个著名的二八定律 [8] ?它也叫帕累托分布(Pareto Distribution) [5],对于这个整体的分布来说,不起眼的尾巴,其重要性甚至超过了本体,比如20%的人掌握了80%的财富等等,这个定律在自然界、社会、经济等方面都有体现 [7]。回到原题,重尾分布的尾在哪并不重要,可以在右也可以在左,也可以左右都有,一般来说在右边。它的定义有一些分歧,一部分学者认为重尾分布的 power moments 是无限的,另外一部分学者认为重尾分布不具有一个有限的方差。重尾分布有三个重要的子类,(1)Fat-tailed distribution(2)Long-tailed distribution(3)Subexponential distribution,次指数分布。后面再提。 总的来说,当一个分布的尾巴很长,而且不是越长值越小,那么它就可以被称为重尾分布,其尾巴虽然看着不起眼,但在整体中占着主导地位。 在查找资料的过程中,我发现大家对重尾分布的理解有着很大的偏差,定义也不甚明确,下面主要用我自己的理解来说明。 角度一:转发数很高的微博占比很少,但是效果很出众。我们用正态分布和微博数据集分布的CCDF做一个对比,因为微博数据集的平均转发数为174.01, 所以正态分布的均值设为174.01,标准差设为150,共生成119,313个值: 如果把所有微博按转发数排序从大到小,前20%的微博的转发数占了总转发数的84.65%: 角度二: 如果用转发数区间(单位为10)表示横坐标,用微博数表示纵坐标: 扔公式先: lim x → ∞ Pr [ X > x + t ∣ X > x ] = 1 \lim_{x \rarr \infty} \text{Pr} [X > x + t | X > x] = 1 x→∞limPr[X>x+t∣X>x]=1 Pr [ X > x ] \text{Pr}[X > x] Pr[X>x] 就是我们前面说过的CCDF。长尾分布与重尾分布相似但不同,长尾分布都是重尾分布,但重尾分布不一定是长尾分布。微博数据集虽然符合重尾分布,但是,根据常识我们知道,一条微博被转发1,000次和被转发2,000次的概率是不一样的,显然有 lim x → ∞ Pr [ X > 2000 ∣ X > 1000 ] < 1 \lim_{x \rarr \infty} \text{Pr} [X > 2000 | X > 1000] < 1 x→∞limPr[X>2000∣X>1000] x ] ∼ Pr [ m a x ( X 1 , X 2 , … , X n ) ] x → ∞ \text{Pr}[X_1+ X_2 + \dots + X_n > x] \sim \text{Pr}[max(X_1, X_2, \dots, X_n)] \;\;\;\; x \rarr \infty Pr[X1+X2+⋯+Xn>x]∼Pr[max(X1,X2,…,Xn)]x→∞ 这也侧面说明,大部分的理赔金由少部分几个保单产生。容易证明,次指数分布都是长尾分布,长尾分布不一定是次指数分布。经济危机、地震灾害等都可视为次指数分布 [6]。其在现实中的意义是极小概率发生的事件造成了极大影响 [11]。 Fat-tailed Distribution,肥尾分布肥尾分布一般指其尾部按幂率进行衰减,不过也不绝对,某些衰减的慢些的分布也被视为肥尾分布 [2, 3, 9],例如对数正态分布、对数逻辑分布、帕累托分布等。 先扔公式: Pr [ X > x ] ∼ x − α as x → ∞ , α > 0 \text{Pr} [X > x] \sim x^{-\alpha} \;\;\;\; \text{as } x \rarr \infty, \;\;\;\; \alpha > 0 Pr[X>x]∼x−αas x→∞,α>0 当 α \alpha α 不很大的时候,如果一个分布满足上述条件(即CCDF等价 x − α x^{-\alpha} x−α),则它可以称为肥尾分布。 说起 α \alpha α,我就想到美猴王头上的紧箍,今年春天,中美合拍,文体两开花,哦呸。还有一些概念涉及到重尾密度(Heavy-tailed Density)、尾部指数(Tail-index),我也没搞懂,有兴趣的可以自己看看。 Log-normal Pareto DistributionCDF公式投喂: F ‾ ( x ) = Pr [ X > x ] = { 1 − ( x m x ) a x ≥ x m , 0 x < x m . \overline{F}(x) = \text{Pr}[X > x] = \begin{cases} 1-(\frac {x_m}{x})^a & x \ge x_m, \\ 0 & x < x_m. \end{cases} F(x)=Pr[X>x]={1−(xxm)a0x≥xm,x |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |