指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

您所在的位置：网站首页 › 证明函数族是正规族的例子 › 指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

2024-07-15 23:33| 来源: 网络整理| 查看: 265

本文作者：合肥工业大学管理学院钱洋 email：[email protected] 内容可能有不到之处，欢迎交流。未经本人允许禁止转载。

文章目录指数分布族的概念典型分布转化Bernoulli分布Poisson分布Gaussian分布多元Gaussian分布Multinomial分布变分推断应用LDA模型参考内容

指数分布族的概念

指数分布族是一系列分布的统称，包含连续和离散的相关分布。例如，正太分布(Gaussian)、泊松分布（Poisson）、二项分布(Bernoulli)、指数分布(exponential)、Gamma分布、多项式分布(multivariate)等。指数分布族中的分布以及指数分布族的性质，经常用于机器学习(machine learning)模型的参数假设以及参数推理中。较为典型的模型是生成模型，例如主题模型(Topic Models)中经常使用到的共轭分布(multivariate和Dirichlet分布、Bernoulli和Beta分布、Poisson和gamma分布等)。指数分布族中的共轭经常用于参数推理、另外其统计特性经常用于变分推理。例如，有兴趣的可以详细阅读下面几篇文章：

Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022.Teh Y W, Newman D, Welling M. A collapsed variational Bayesian inference algorithm for latent Dirichlet allocation[C]//Advances in neural information processing systems. 2007: 1353-1360.Blei D M, Kucukelbir A, McAuliffe J D. Variational inference: A review for statisticians[J]. Journal of the American Statistical Association, 2017, 112(518): 859-877. 【变分推断的综述性文章–案例代码为：https://blog.csdn.net/qy20115549/article/details/86694325】Su J. Variational Inference: A Unified Framework of Generative Models and Some Revelations[J]. arXiv preprint arXiv:1807.05936, 2018. 【变分自编码器VAE、生成对抗网络GAN】Wainwright M J, Jordan M I. Graphical models, exponential families, and variational inference[J]. Foundations and Trends® in Machine Learning, 2008, 1(1–2): 1-305. 【一本书】

指数分布族中的分布于都写成下面的形式：在这里插入图片描述其中：

η \eta η为自然参数(natural parameter)，可以是向量形式 T ( x ) T(x) T(x)为充分统计量(sufficient statistic) A ( η ) A(\eta) A(η)为累计函数(cumulant function)，作用是确保概率和为1 h ( x ) h(x) h(x)为underlying measure 典型分布转化 Bernoulli分布

以下是Bernoulli分布的转化：在这里插入图片描述对比上面的形式，可以得到：

Poisson分布

泊松分布的标准形式为：在这里插入图片描述写成指数形式为：因此泊松分布也属于指数分布族，其相关参数为：

Gaussian分布

正太分布的形式为：在这里插入图片描述写成指数形式为：因此，也满足指数组分布：高斯分布有两个参数，因此自然参数以及充分统计量都有两个。

多元Gaussian分布

标准形式为：在这里插入图片描述写成指数族形式：对比：可以得到：自然参数为： cumulant function为：

Multinomial分布

多项式分布的形式为：在这里插入图片描述重写为：从这里发现，累计函数 A ( η ) A(\eta) A(η)为0了，实际上并不为0。继续转化有：这里有：因此，可以得到：由这个式子可以转化得到 π k \pi_{k} πk，即：在这里插入图片描述可以看出这个式子是softmax函数。另外，我们也可以获得：

变分推断应用

在变分推理中，经常使用到的是 A ( η ) A(\eta) A(η)性质，即 A ( η ) A(\eta) A(η)对 ( η (\eta (η的一阶偏导数：在这里插入图片描述上面这个公式，可以由最原始的公式得到。继续计算有：例如，对二项分布而言：对正太分布而言：在变分推理中，经常要计算期望，通过这个性质，便可以将期望计算转化成求导计算。例如，

LDA模型

LDA的概率图表示如下：在这里插入图片描述主题分布 θ \theta θ服从先验为 α \alpha α的Dirichlet分布，即：其中：对 θ \theta θ的分布进行转化有：在这里插入图片描述因此，可以看出Dirichlet分布也属指数分布，由上面的公式得到：自然参数 η i \eta _{i} ηi: sufficient statistic为： log normalizer或cumulant function为：在这里插入图片描述基于上面这三个公式有：在LDA的变分推理中，需要将下界ELOB转化为多项期望，如下面所示：此公式中，包含多个期望，在计算时，每个期望都需要推导出公式。由于前面已经分析参数 θ \theta θ，下面只例举 E q [ l o g p ( θ j ∣ α ) ] E_q[logp(\theta_j|\alpha)] Eq[logp(θj∣α)]: 在这里插入图片描述在上面公式标红的部分，便可转化成偏导的计算，这里 θ \theta θ对应的变分参数为 γ \gamma γ，即：这里的log normalizer或cumulant function为：在这里插入图片描述进而可以计算公式标红的期望：其中， Ψ ( ⋅ ) \Psi(\cdot) Ψ(⋅)为digamma函数，及Gamma函数对数的一阶偏导数。因此有：关于其他期望的求法与这个类似，这里不作过多赘述，有兴趣的可以学习这篇文章： Inference Methods for Latent Dirichlet Allocation

参考内容

https://people.eecs.berkeley.edu/~jordan/courses/260-spring10/other-readings/chapter8.pdf http://www.cs.columbia.edu/~jebara/4771/tutorials/lecture12.pdf https://people.eecs.berkeley.edu/~jordan/courses/260-spring10/other-readings/chapter9.pdf http://times.cs.uiuc.edu/course/598f16/notes/lda-survey.pdf [lda推理]

【本文地址】

指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

指数分布族(Exponential Family)相关公式推导及在变分推断中的应用

今日新闻

推荐新闻