【原】坤鹏论：为什么汉字信息熵大，表现出来的却是言简意赅？

坤鹏论 2020-09-02

展开全文

这个世界最伟大的不变永远是本质。
——坤鹏论

昨天《是信息熵越大，信息量越多？还是信息熵越大，信息量越少？》发布后，有网友和坤鹏论进行了讨论。

坤鹏论琢磨了一晚上，连做梦都在琢磨。

实话说，这半个多月时间来，信息熵已经把我折磨到寝食难安了。

一、通信系统只是讯息的搬运工

我们在理解信息熵时，一定要牢记：

香农解决的是通信系统中的讯息如何既高效又准确地传输的问题。

它不是人们所想的——使自己的意图被人理解，传递意义。

香农根本就不关心所传输的讯息的意义。

“对于信息论的研究而言，讯息的‘意义’基本上无关。”

因为，“通信的基本问题是，在一点精确地或近似地复现在另一点所选取的讯息。”

不过，香农还是给“意义”下了科学家的定义：

“这些讯息往往都带有意义，也就是说，根据某种体系，它们指向或关联了特定的物理或概念实体。”

就在定义之后，他又将其客气地请出了信息论：

“但通信的这些语义因素，与它们的工程学问题无关。”

通信系统其实和快递很相似，一个是传输讯息，一个是传输实物。

快递公司不创造包裹；

通信系统也不创造讯息。

就像农夫山泉那句广告词一样：我们不生产水，我们是大自然的搬运工。

当它们开始传输的时候，包裹和讯息就已经存在了。

既然讯息已经存在，它的信息熵也就能够直接计算出来。

恰如坤鹏论所说，信息熵是过去时的。

而它们的最终目标都是，要将包裹或讯息完整、准确地送达接收者——也就是使接收者达到完全的确定性。

它们都不可能做那种送到一半就不送的事。

所以，信息论的信息量都是讲从现在的不确定到未来完全的确定性，还需要输入多少信息。

那么，像“信息量 = 获取信息前事件的信息熵 - 获取信息后事件的信息熵”，这样的公式就不太正确了。

因为如果在获取信息后，还有信息熵，那就是没有到达完全的确定性，显然，这个相减的结果，就不是信息论的信息量。

而且，在信息论中，讯息都是已经在那里的，在进入到通信系统时，它的不确定性程度就被计算出来了。

既然讯息已经在那里了，为什么还要说，讯息是被选取出来的呢？

对此，我们不要脱离开信息熵的根本作用去理解它，否则，很容易陷入思维困境。

信息熵的根本作用之一就是，去除讯息中的冗余，使得其体积变小，并且还要保证传输到接收者那里后，没有损失或近似没有损失。

那么该如何去除冗余？

其实就是在已有的讯息中选择，传输什么，不传输什么。

选择标准就是信息熵。

这里提醒大家，信息论看到的讯息，都是一个个字符，顶多是一个个字符组合（单词），它不懂也不想懂它们的意义！

比如：一段文字中有100个“中华人民共和国”，那么可以指定华＝中华人民共和国，并通过将其写在译编码中告诉传输模型中的译码器，只要见到“华”，就译成“中华人民共和国”，也就是只选择传输“华”，其他六个字不传输。

或者，就像如果给你看“中华人__共__国”，你基本就能猜出空格的两个字是“民”、“和”，因为它们出现在这个组合中的概率非常高，信息熵低，不确定性弱，证明它们的确定性极强，那么这两个字就是冗余的，就可以不传输。

同时，就像快递包裹，是以个为单位，不管里面有多少东西。

所以，一个包裹可以小到巴掌大，也可以大到整个集装箱。

讯息也一样，以条为单位，一条讯息可以是一个字符，也可以是一整本书。

“通信的基本问题是，在一点精确地或近似地复现在另一点所选取的讯息。”

这里的“点”字用得特别好。

它意味着，讯息的信源和信宿可以在空间或时间上相分隔。

那么，信息的存储，比如：唱片，也可以算是一种通信。

二、为什么汉字的信息熵大，表现出来的却是言简意赅？

这也一个困扰很多人的经典问题。

特别是在理解了信息熵是不确定性的程度之后。

比如有人会这样琢磨：

“如果汉字的平均信息熵高，说明它的不确定性大，那么由它组成的信息，应该不确定性更大，只有输入更多信息才能消除不确定性呀。”

在对这个问题进行分析时，为了完整与温故而知新，坤鹏论会把昨天文章的意思一并复习一遍。

第一，我们一定要明白，不确定性是接收者对汉字的不确定性，而不是汉字本身的不确定性。

这是一个相对关系，因为汉字就是一个符号，如果孤立地看它，它什么也不是。

只有在被人为地赋予了含义后，它才具有了承载信息的功能。

正如干事业，总是赶时髦，追流行、爱变化，最终就成了被别人牵着鼻子走，跟在别人屁股后面吃土的宿命，很难成功。

想想看，爱情中，最难成的往往是男方落花特别有意，拼命追求逢迎，女方反而越来越流水非常无情。

所以，想得到什么，王道永远是以我为本，改变别人都不如改变自己，先让自己配得上……

这里面揭示的道理就是以不变应万变。

这个世界最伟大的不变永远是本质。

在信息传输系统中，最多变的是讯息；最不变的是接收者。

第二，信息的本质就是让接收者做出选择。

香农的信息论将接收者定义为，只计字数不管内容的客观存在物，并且在做出选择后便被消除记忆。

那么只有紧紧围绕接收者，这件事就不会跑偏，才能一直稳稳踩在阳光大道上。

所以，汉字的平均信息熵，也就是平均不确定性的程度，都是对于接收者来说的。

比如：我们说“打”这个字的信息熵高。

其中要表达的是，当”打“这个字摆在面前时，接收者不能确切地知道它要传递什么信息。

因为它能和非常多的字或词，通过在前或在后的组合，衍生出更多的含义。

比如：“打人”、“打电话”、“打工”、“打扫”、“打针”、打球“、”打印“……

那么，接收者此时此刻根本无法确定它要表达的意思，也就无法作出选择，只能等待”还能说什么“的信息输入。

第三，那为什么又说，信息熵高，信息量大呢？

这个理解起来很简单。

正因为可能性太多，对于接收者来说，”还能说什么“的”什么“太多了。

既然这里的”什么“是信息，自然”还能说的什么“的”什么“的数量就会很多，这就是信息论角度的信息量大。

这是因为信息论中默认的接收者，就像麦克斯韦妖，它没有分析能力，它只能靠提回答是或否的问题来猜。

所以，对它来说，只能问答案是“是或否”的问题。

比如：如果是四种可能，就是四选一，你平均需要问两个问题就能得到确定答案。

如果是八种可能，就是八选一，你则需要平均问三个问题能得到确定答案。

通过问这样的问题，对一条未知讯息从猜不出来到猜出来所需要问的问题的平均数目，就是信息熵。

显然，概率越小，信息熵越大，得到确定答案需要问的问题越多，这就是所谓的信息量越大。

在《是信息熵越大，信息量越多？还是信息熵越大，信息量越少？》中，我们已经知道，信息、信息熵、信息量是同一时间点定义和计算出来的。

简单说，就是一个”过去已过去，未来还未来“的时间点，这时候所说的信息就是”还能说什么“，信息量则为”还能说多少“。

那么，说汉字因为信息熵高，所以信息量大，没毛病。

或者我们这样理解可能更容易明白，汉字因为信息熵高，所以接收者在看到单个汉字时，不能确定它要表达的意思，对它的不确定性高，那么，还能说的可能性很多，（未来可以接收的）信息量大。

第四，那为什么又说，文字系统的平均信息熵越高，越言简意赅呢？

思考这个问题最好脱离开单个汉字，而是以一个信息集合，比如：一段话、一篇文章、一本书等来考虑。

这时候，除了单个汉字的信息熵外，上下文的关联度也会起到关键作用，毕竟任何文字系统的作用都是组合在一起传递信息。

坤鹏论琢磨了很久怎么找个形象的比喻来解释这点，最后终于想到一个比较恰当的例子。

我们可以把文字系统中每个字符想象成是一个个具有多功能的零件，有的功能是5种，有的功能是10种。

显然，功能越多，零件的不确定性越强，也就是我们不知道它在未来组成的机器中的具体是什么，因为可能性很多。

不过，可以肯定的是，制造同样的机器，肯定是由功能多的零件组成的机器，更节省零件。

或者还可以假设你是一名维修工，如果一个零件的功能多，那么，你外出维修时，需要带的零件就会大大减少。

亦或者我们可以把每个字符当成一个个人。

有的人是一个人干一个人的活；

有的人能力强、多面手，一个人能干四个人的活。

如果把两种人分别组成公司，完成同样的工作和工作量。

前者组成的公司如果是20个人，后者组成的公司则只要5个人足矣。

功能多，会的多，就是信息熵高。

就像那句话说的——未来不可限量。

这是因为能力强、能力全面，能胜任的工作多，干什么都可能很厉害。

于是，未来到底会在哪方面脱颖反而难以说清，不确定性很强。

对于这样的人，我们总会情不自禁地感叹道：他的故事一定很多。

看，这不就是信息量多吗？！哈哈！

汉字信息熵大，信息量大，表现出来就是言简意赅，这样造成说出来的每个字都很重要，冗余度小，难猜，所以，中国人说话的声音就会偏大。

本文由“坤鹏论”原创，转载请保留本信息

坤鹏论

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：坤鹏论 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

坤鹏论

关注对话

TA的最新馆藏

坤鹏论：读《理想国》领悟西方哲学的源泉（八）
坤鹏论：读《理想国》领悟西方哲学的源泉（七）
坤鹏论：读《理想国》领悟西方哲学的源泉（六）
坤鹏论：读《理想国》领悟西方哲学的源泉（五）
坤鹏论：读《理想国》领悟西方哲学的源泉（四）
坤鹏论：读《理想国》领悟西方哲学的源泉（三）

喜欢该文的人也喜欢更多

热门阅读换一换