分享

信息论中的“信息”是什么?

 taotao_2016 2020-03-06

信息论中的“信息”是什么?

在这篇文章中,我将简单解释:信息论中的“信息”到底是什么?

信息论中的一个基本术语是熵。熵代表了一个系统的无序程度。在信息论中,熵告诉我们观察到的事件x中包含的信息量。事件的概率为p(x)。

那么,我们所说的信息是什么意思呢?其实直观地理解这个词并不容易。“信息”的数量实际上都与存储有关。信息以位为单位进行存储。在信息论中,我们考虑有噪声的通信通道,该通道用于将某些事件从一侧传递到另一侧。这些事件需要以某种方式进行编码,更具体地说,它们需要被编码成比特(正如计算机科学理论中所看到的那样)。理想情况下,我们不希望使用太多的位来通过通信通道传递这些事件,因为位会消耗能量。我们希望将大部分比特花在罕见事件上,因为它们将通过通道发送的频率降低,因此产生的成本也更少。

信息论中的“信息”是什么?

什么是罕见事件?是一个概率很小的p(x)。我们希望事件的信息更大,而事件的概率更低。我们将此函数称为h(x),它应返回事件x中包含的信息量,该信息量对于低概率而言较高,而对于高概率事件而言较低。现在,让我们看一下下面的h(x):

信息论中的“信息”是什么?

这似乎是正确的做法:概率越低,信息就越高。它具有另一个不错的属性:如果我们获取两个同时发生的独立事件的信息,我们将得出以下信息:

信息论中的“信息”是什么?

这是从简单的对数运算中得出的结论,因为在x和y是独立的情况下,下面的结论是成立的:

信息论中的“信息”是什么?

这是h函数的一个不错的特性,它意味着我们可以累加独立事件的信息,但是这也意味着我们不能累加相关事件的信息。对数本身是机器学习,数学和物理学中经常出现的函数。它在计算上如此出色的原因在于,它使我们能够将乘积写为和,得出函数的良好界限等。

现在,如果我们想要度量随机变量的信息,我们需要查看它的所有实现(事件)的预期信息。我们取h(x)的期望,如果我们假设我们处理的是一个离散随机变量,它看起来就像下面这样:

信息论中的“信息”是什么?

而这正是熵的定义!让我们假设p(x)是伯努利分布,这意味着可以发生两个事件(x和y),根据它们各自的概率,我们可以写出p(x)= 1-p(y),因为事件空间上的概率合计为1。在那种情况下,我们可以将熵绘制为p(x)的函数,然后我们会注意到:

信息论中的“信息”是什么?

我们可以看到,当p(x)取值为0.5 时,它是最大值。这意味着所有事件均具有同等概率,因此在伯努利分布中包含了相同数量的信息。反过来,假设说我们有另一个系统,考虑两个随机变量X和Y及其各自的分布p和q。我们可以看看他们的互信息。这是机器学习中经常使用的量,我们想要学习包含独立因素的潜在表示(即,最小化独立因素之间的互信息)。最终,它可以归结为以下等式:

信息论中的“信息”是什么?

我们知道,在随机变量x和y相互独立的情况下,我们可以写出联合分布p(x,y)=p(x)p(y)。如果它们不是独立的,我们必须遵循贝叶斯规则,p(x,y)=p(x)p(y|x)。如果独立性成立,则对数比率为1,因此表达式等于0,互信息为0。这是有道理的,因为根据独立性,我们知道一个事件的发生不会影响另一个事件的发生。在另一种情况下,我们会得到非零的互信息。

信息理论对于机器学习从业者来说是一个非常有用的概念,因为它使他们可以从信息理论的角度看待学习算法。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多