搜索

分享

QQ空间 QQ好友新浪微博微信

信息论中的“信息”是什么？

taotao_2016 2020-03-06

展开全文

信息论中的“信息”是什么？

在这篇文章中，我将简单解释：信息论中的“信息”到底是什么？

信息论中的一个基本术语是熵。熵代表了一个系统的无序程度。在信息论中，熵告诉我们观察到的事件x中包含的信息量。事件的概率为p（x）。

那么，我们所说的信息是什么意思呢?其实直观地理解这个词并不容易。“信息”的数量实际上都与存储有关。信息以位为单位进行存储。在信息论中，我们考虑有噪声的通信通道，该通道用于将某些事件从一侧传递到另一侧。这些事件需要以某种方式进行编码，更具体地说，它们需要被编码成比特(正如计算机科学理论中所看到的那样)。理想情况下，我们不希望使用太多的位来通过通信通道传递这些事件，因为位会消耗能量。我们希望将大部分比特花在罕见事件上，因为它们将通过通道发送的频率降低，因此产生的成本也更少。

信息论中的“信息”是什么？

什么是罕见事件？是一个概率很小的p（x）。我们希望事件的信息更大，而事件的概率更低。我们将此函数称为h（x），它应返回事件x中包含的信息量，该信息量对于低概率而言较高，而对于高概率事件而言较低。现在，让我们看一下下面的h（x）：

信息论中的“信息”是什么？

这似乎是正确的做法:概率越低，信息就越高。它具有另一个不错的属性：如果我们获取两个同时发生的独立事件的信息，我们将得出以下信息：

信息论中的“信息”是什么？

这是从简单的对数运算中得出的结论，因为在x和y是独立的情况下，下面的结论是成立的:

信息论中的“信息”是什么？

这是h函数的一个不错的特性，它意味着我们可以累加独立事件的信息，但是这也意味着我们不能累加相关事件的信息。对数本身是机器学习，数学和物理学中经常出现的函数。它在计算上如此出色的原因在于，它使我们能够将乘积写为和，得出函数的良好界限等。

现在，如果我们想要度量随机变量的信息，我们需要查看它的所有实现(事件)的预期信息。我们取h(x)的期望，如果我们假设我们处理的是一个离散随机变量，它看起来就像下面这样:

信息论中的“信息”是什么？

而这正是熵的定义！让我们假设p（x）是伯努利分布，这意味着可以发生两个事件（x和y），根据它们各自的概率，我们可以写出p（x）= 1-p（y），因为事件空间上的概率合计为1。在那种情况下，我们可以将熵绘制为p（x）的函数，然后我们会注意到：

信息论中的“信息”是什么？

我们可以看到，当p（x）取值为0.5 时，它是最大值。这意味着所有事件均具有同等概率，因此在伯努利分布中包含了相同数量的信息。反过来，假设说我们有另一个系统，考虑两个随机变量X和Y及其各自的分布p和q。我们可以看看他们的互信息。这是机器学习中经常使用的量，我们想要学习包含独立因素的潜在表示（即，最小化独立因素之间的互信息）。最终，它可以归结为以下等式：

信息论中的“信息”是什么？

我们知道，在随机变量x和y相互独立的情况下，我们可以写出联合分布p(x,y)=p(x)p(y)。如果它们不是独立的，我们必须遵循贝叶斯规则，p(x,y)=p(x)p(y|x)。如果独立性成立，则对数比率为1，因此表达式等于0，互信息为0。这是有道理的，因为根据独立性，我们知道一个事件的发生不会影响另一个事件的发生。在另一种情况下，我们会得到非零的互信息。

信息理论对于机器学习从业者来说是一个非常有用的概念，因为它使他们可以从信息理论的角度看待学习算法。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： taotao_2016 > 《物理》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

taotao_2016

关注对话

TA的最新馆藏

你的工作在消耗你，还是滋养你？
[转] 线性空间，度量空间，赋范空间，线性赋范空间，内积空间，巴拿赫空间以及希尔伯特空间、拓扑空间
对掐：维特根斯坦和图灵
干货 | IBM：系统性整理Agent架构、框架
欧洲大型开源项目：数字孪生的方案框架
统计学(一) | t检验

喜欢该文的人也喜欢更多

热门阅读换一换