什么是贝叶斯网络？原理入门

您所在的位置：网站首页 › 神经网络控制的基本原理是什么 › 什么是贝叶斯网络？原理入门

什么是贝叶斯网络？原理入门

2024-07-14 17:45| 来源: 网络整理| 查看: 265

现实生活中的很多问题都是概率问题，由多个变量(因素，要素)相互影响。而想要用贝叶斯网络对其建模，我们需要考虑三个问题：1. 如何定义节点；2.如何定义节点之间的概率依赖关系；3. 如何表示联合概率分布。

假设我们现在有 N N N个变量，每个变量有 K K K个取值，则可建模为如下形式：

p ( X ) = p ( X 1 , X 2 , … , X N ) , X i ∈ { 1 , 2 , … K } p(\mathbf{X})=p\left(X_{1}, X_{2}, \ldots, X_{N}\right), X_{i} \in\{1,2, \ldots K\} p(X)=p(X1,X2,…,XN),Xi∈{1,2,…K}

若使用枚举法，参数个数为： K N K^{N} KN。

假设变量之间相互独立，则联合概率分布大大简化为如下形式：

p ( X ) = p ( X 1 ) p ( X 2 ) ⋯ p ( X N ) p(\mathbf{X}) = p(X_{1})p(X_{2})\cdots p(X_{N}) p(X)=p(X1)p(X2)⋯p(XN)

但是变量之间相互独立的这个假设太强了，那我们如何来利用图的结构优势降低模型的复杂度？

贝叶斯网络

贝叶斯网络是一个有向无圈图(Directed Acyclic Graph, DAG)(有向边并不会形成一个圈)，由代表变量节点及连接这些节点有向边构成。节点代表随机变量，节点间的有向边代表了节点间的互相关系(由父节点指向其子节点)，用条件概率表达变量间依赖关系，没有父节点的用先验概率进行信息表达。

令 G G G为定义在 { X 1 , X 2 , ⋯ , X N } \{X_{1},X_{2},\cdots,X_{N}\} {X1,X2,⋯,XN}上的一个贝叶斯网络，则其联合概率分布可以表示为各个节点的条件概率分布的乘积：

p ( X ) = ∏ i p i ( X i ∣ Par ⁡ G ( X i ) ) p(X)=\prod_{i} p_{i}\left(X_{i} | \operatorname{Par}_{G}\left(X_{i}\right)\right) p(X)=i∏pi(Xi∣ParG(Xi))

其中 P a r G ( X i ) Par_{G}(\mathbf{X}_{i}) ParG(Xi)为节点 X i \mathbf{X}_{i} Xi的父节点， p i ( X i ∣ P a r G ( X i ) ) p_{i}(\mathbf{X}_{i}|Par_{G}(X_{i})) pi(Xi∣ParG(Xi))为节点条件概率表。

我们以一个例子来对其进行实例化建模：

实际生活中的一个例子：对一个学生能否拿到老师的推荐信这一问题进行建模研究。假设与该问题相关的变量有以下五个：试题难度、学生智力、考试成绩、高考成绩、是否得到老师推荐信。那么其节点可定义为如下形式：

定义节点

可以看到Grade有两个父节点，SAT有一个父节点(有父子节点的表示为条件概率分布的形式)。所以其联合概率分布可表示为如下形式：

p ( D , I , G , S , L ) = P ( D ) P ( I ) P ( G ∣ I , D ) P ( S ∣ I ) P ( L ∣ G ) \begin{array}{l} p(D, I, G, S, L) \\ =P(D) P(I) P(G | I, D) P(S | I) P(L | G) \end{array} p(D,I,G,S,L)=P(D)P(I)P(G∣I,D)P(S∣I)P(L∣G)

那写成这这种联合概率分布的情况有什么好处呢？我们可以看一下其参数形式：

枚举法：2 * 2 * 3 * 2 * 2 - 1 = 47 个参数(减去1的原因是联合概率分布求和需要等于1)。结构化分解：1 + 1 + 8 + 3 + 2 = 15个参数 (每一行的参数求和需要等于1)。

更一般地，假设 n n n个二元随机变量的联合概率分布，表示该分布需要 2 n − 1 2^{n}-1 2n−1 个参数。如果用贝叶斯网络建模，假设每个节点最多有 k k k 个父节点，所需要的参数最多为 n ∗ 2 k n*2^{k} n∗2k，一般每个变量局部依赖于少数变量。

算一个实际的例子：

实际算数举例