信息熵:什么是信息熵?

您所在的位置:网站首页 什么叫不确定性 信息熵:什么是信息熵?

信息熵:什么是信息熵?

2023-11-15 11:51| 来源: 网络整理| 查看: 265

本文是在研究KL散度的图中又巩固了一下信息熵,KL散度是机器学习中经常会遇到的度量方法,它度量了两个分布之间的距离,它来源于信息熵,也是香农信息论的产物之一。

(本文参考资料:

https://www.dazhuanlan.com/2019/08/29/5d66f40a70e43/ 有关KL散度的介绍和详细推导

https://www.cnblogs.com/daguonice/p/11179662.html 信息熵的简单理解

以及他们的引用文章)

信息熵

信息熵是一个很玄乎的东西,他(香农)很聪明的描述了一个事物包含的信息。

 

什么是信息熵?

信息熵描述了一个事件的不确定性。熵是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。所谓不确定性,我们可以把它理解成可能性。这个定义我们可以反向理解:

信息的意义是消除不确定性。- 这句话很好理解吧 - 这句话理解起来没问题吧。那你看我前面说的是不是废话,你觉得这是无用信息,因为它没有传递出更多的内容,对不确定性的消除为0。

下面我们看一个例子:

某日,郭逼说:“今天太阳从东边升起!”

我:“...”

我很无语,因为这句话没有信息,太阳从东边升起本身就是一个发生概率基本为100%的事件,这个事件没有其他的信息。而如果:

某日,郭逼说:“今天太阳从西边升起!!!”

我:“???”

我感到很震惊,为什么太阳会从西边升起?这可能是因为:地球反转,太阳换位置,郭逼疯了,郭逼傻了,etc.

那么这句话的信息量十分大,因为郭逼说出这句话的前提有多种可能性,也就是所谓的“信息量很大”。

也就是说,如果一个事件的信息量越大,那么对应的信息熵也越大。

 

有一个非常好的视频也推荐给大家:https://www.zhihu.com/question/22178202

总结一下视频内容:

如果我们要通过1斤肉块,去测量5斤大米有多重,我们会说,这袋大米有5个肉块那么沉。

同样的,我们要通过一个已知信息事件,去测量待测事件信息。如:

我们已知一个抛硬币正反面的信息(2个不确定性)可通过1个bit表示,我们如何测量掷一个色子的信息?

一个筛子的可能性有6种,所以 1个掷色子的信息量 = 3 个抛硬币的信息量

错!因为他们之间不是简单的加 减运算,而是指数运算,抛3个硬币会产生2^3个不确定的结果,所以最终我们使用log2的关系去衡量他们的结果,所以掷色子的信息量是log_2(6)。但前提是:每种不确定性都是等可能性的!

如果概率不相等呢?我们继续讨论。

 

信息熵的建模

于是,我们开始对信息熵进行建模,假设:

郭逼说:太阳从西边升起 这个事件为X事件,则引起这个事件的原因可能为X1, X2, X3, ..., XN

我们假设事件X的原因(或者可能性或者不确定性)为集合{X1, X2, X3, ..., XN},且xi之间互相独立不相关,那么我们使用

H(X\subscript{i})

代表事件xi的信息熵,则两个互相独立事件同时发生的信息熵为:

H(X_{i}, X_{j}) = H(X_{i}) + H(X_{j})

在这个定义下,我们可以联想到条件概率:

P(AB) = P(A)\cdot P(B)

这说明 H → P 之间的关系可以用log函数来表示。而我们在思考问题时, 我们认为发生概率越小的事情,信息熵越大。那么信息熵的表示应为一个单调递减函数。

结合上面抛硬币的例子,我们继续思考:

对于抛硬币事件,它的信息量是1bit,那么对于一个发生概率为16.5%的事件,它的信息量是多少?

思考:对于发生概率为1%的事件,可以看作一个事件A对应的100种等可能事件(事件集合B = {B1, ..., B100})的一份,则我们可以沿用等可能事件的算法,算出A事件的信息量为 log_2(100) ,而A事件可以看作所有等可能事件的加权平均,所以B集合中任意一个事件的信息熵为:

\frac{1}{100} log_2(100)

这时我们突然发现,计算信息熵的公式就在眼前:

h(A) = P(A)\cdot log_2(1/P(A)) = -P(A)\cdot log_2(P(A))

如果不用bit,这里的log2可以是任意对数函数。注意:这里A描述了一个事件!

而对随机变量 X 而言,它有各种不确定性,包含了{x1, ..., xn}个事件,则随机变量X的信息熵为:

H[x] =-\sum_{x=1}^{N}p(x)log_2(p(x)),

即每个事件的熵的加权平均。这就是信息熵!

*补充:信息熵和信息量,香农信息量与一个事件的概率有关,信息熵与一个事件的概率分布有关。

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3