昨天《是信息熵越大,信息量越多?还是信息熵越大,信息量越少?》发布后,有网友和坤鹏论进行了讨论。 坤鹏论琢磨了一晚上,连做梦都在琢磨。 实话说,这半个多月时间来,信息熵已经把我折磨到寝食难安了。 一、通信系统只是讯息的搬运工 我们在理解信息熵时,一定要牢记: 香农解决的是通信系统中的讯息如何既高效又准确地传输的问题。 它不是人们所想的——使自己的意图被人理解,传递意义。 香农根本就不关心所传输的讯息的意义。 “对于信息论的研究而言,讯息的‘意义’基本上无关。” 因为,“通信的基本问题是,在一点精确地或近似地复现在另一点所选取的讯息。” 不过,香农还是给“意义”下了科学家的定义: “这些讯息往往都带有意义,也就是说,根据某种体系,它们指向或关联了特定的物理或概念实体。” 就在定义之后,他又将其客气地请出了信息论: “但通信的这些语义因素,与它们的工程学问题无关。” 通信系统其实和快递很相似,一个是传输讯息,一个是传输实物。 快递公司不创造包裹; 通信系统也不创造讯息。 就像农夫山泉那句广告词一样:我们不生产水,我们是大自然的搬运工。 当它们开始传输的时候,包裹和讯息就已经存在了。 既然讯息已经存在,它的信息熵也就能够直接计算出来。 恰如坤鹏论所说,信息熵是过去时的。 而它们的最终目标都是,要将包裹或讯息完整、准确地送达接收者——也就是使接收者达到完全的确定性。 它们都不可能做那种送到一半就不送的事。 所以,信息论的信息量都是讲从现在的不确定到未来完全的确定性,还需要输入多少信息。 那么,像“信息量 = 获取信息前事件的信息熵 - 获取信息后事件的信息熵”,这样的公式就不太正确了。 因为如果在获取信息后,还有信息熵,那就是没有到达完全的确定性,显然,这个相减的结果,就不是信息论的信息量。 而且,在信息论中,讯息都是已经在那里的,在进入到通信系统时,它的不确定性程度就被计算出来了。 既然讯息已经在那里了,为什么还要说,讯息是被选取出来的呢? 对此,我们不要脱离开信息熵的根本作用去理解它,否则,很容易陷入思维困境。 信息熵的根本作用之一就是,去除讯息中的冗余,使得其体积变小,并且还要保证传输到接收者那里后,没有损失或近似没有损失。 那么该如何去除冗余? 其实就是在已有的讯息中选择,传输什么,不传输什么。 选择标准就是信息熵。 这里提醒大家,信息论看到的讯息,都是一个个字符,顶多是一个个字符组合(单词),它不懂也不想懂它们的意义! 比如:一段文字中有100个“中华人民共和国”,那么可以指定华=中华人民共和国,并通过将其写在译编码中告诉传输模型中的译码器,只要见到“华”,就译成“中华人民共和国”,也就是只选择传输“华”,其他六个字不传输。 或者,就像如果给你看“中华人__共__国”,你基本就能猜出空格的两个字是“民”、“和”,因为它们出现在这个组合中的概率非常高,信息熵低,不确定性弱,证明它们的确定性极强,那么这两个字就是冗余的,就可以不传输。 同时,就像快递包裹,是以个为单位,不管里面有多少东西。 所以,一个包裹可以小到巴掌大,也可以大到整个集装箱。 讯息也一样,以条为单位,一条讯息可以是一个字符,也可以是一整本书。 “通信的基本问题是,在一点精确地或近似地复现在另一点所选取的讯息。” 这里的“点”字用得特别好。 它意味着,讯息的信源和信宿可以在空间或时间上相分隔。 那么,信息的存储,比如:唱片,也可以算是一种通信。 二、为什么汉字的信息熵大,表现出来的却是言简意赅? 这也一个困扰很多人的经典问题。 特别是在理解了信息熵是不确定性的程度之后。 比如有人会这样琢磨: “如果汉字的平均信息熵高,说明它的不确定性大,那么由它组成的信息,应该不确定性更大,只有输入更多信息才能消除不确定性呀。” 在对这个问题进行分析时,为了完整与温故而知新,坤鹏论会把昨天文章的意思一并复习一遍。 第一,我们一定要明白,不确定性是接收者对汉字的不确定性,而不是汉字本身的不确定性。 这是一个相对关系,因为汉字就是一个符号,如果孤立地看它,它什么也不是。 只有在被人为地赋予了含义后,它才具有了承载信息的功能。 正如干事业,总是赶时髦,追流行、爱变化,最终就成了被别人牵着鼻子走,跟在别人屁股后面吃土的宿命,很难成功。 想想看,爱情中,最难成的往往是男方落花特别有意,拼命追求逢迎,女方反而越来越流水非常无情。 所以,想得到什么,王道永远是以我为本,改变别人都不如改变自己,先让自己配得上…… 这里面揭示的道理就是以不变应万变。 这个世界最伟大的不变永远是本质。 在信息传输系统中,最多变的是讯息;最不变的是接收者。 第二,信息的本质就是让接收者做出选择。 香农的信息论将接收者定义为,只计字数不管内容的客观存在物,并且在做出选择后便被消除记忆。 那么只有紧紧围绕接收者,这件事就不会跑偏,才能一直稳稳踩在阳光大道上。 所以,汉字的平均信息熵,也就是平均不确定性的程度,都是对于接收者来说的。 比如:我们说“打”这个字的信息熵高。 其中要表达的是,当”打“这个字摆在面前时,接收者不能确切地知道它要传递什么信息。 因为它能和非常多的字或词,通过在前或在后的组合,衍生出更多的含义。 比如:“打人”、“打电话”、“打工”、“打扫”、“打针”、打球“、”打印“…… 那么,接收者此时此刻根本无法确定它要表达的意思,也就无法作出选择,只能等待”还能说什么“的信息输入。 第三,那为什么又说,信息熵高,信息量大呢? 这个理解起来很简单。 正因为可能性太多,对于接收者来说,”还能说什么“的”什么“太多了。 既然这里的”什么“是信息,自然”还能说的什么“的”什么“的数量就会很多,这就是信息论角度的信息量大。 这是因为信息论中默认的接收者,就像麦克斯韦妖,它没有分析能力,它只能靠提回答是或否的问题来猜。 所以,对它来说,只能问答案是“是或否”的问题。 比如:如果是四种可能,就是四选一,你平均需要问两个问题就能得到确定答案。 如果是八种可能,就是八选一,你则需要平均问三个问题能得到确定答案。 通过问这样的问题,对一条未知讯息从猜不出来到猜出来所需要问的问题的平均数目,就是信息熵。 显然,概率越小,信息熵越大,得到确定答案需要问的问题越多,这就是所谓的信息量越大。 在《是信息熵越大,信息量越多?还是信息熵越大,信息量越少?》中,我们已经知道,信息、信息熵、信息量是同一时间点定义和计算出来的。 简单说,就是一个”过去已过去,未来还未来“的时间点,这时候所说的信息就是”还能说什么“,信息量则为”还能说多少“。 那么,说汉字因为信息熵高,所以信息量大,没毛病。 或者我们这样理解可能更容易明白,汉字因为信息熵高,所以接收者在看到单个汉字时,不能确定它要表达的意思,对它的不确定性高,那么,还能说的可能性很多,(未来可以接收的)信息量大。 第四,那为什么又说,文字系统的平均信息熵越高,越言简意赅呢? 思考这个问题最好脱离开单个汉字,而是以一个信息集合,比如:一段话、一篇文章、一本书等来考虑。 这时候,除了单个汉字的信息熵外,上下文的关联度也会起到关键作用,毕竟任何文字系统的作用都是组合在一起传递信息。 坤鹏论琢磨了很久怎么找个形象的比喻来解释这点,最后终于想到一个比较恰当的例子。 我们可以把文字系统中每个字符想象成是一个个具有多功能的零件,有的功能是5种,有的功能是10种。 显然,功能越多,零件的不确定性越强,也就是我们不知道它在未来组成的机器中的具体是什么,因为可能性很多。 不过,可以肯定的是,制造同样的机器,肯定是由功能多的零件组成的机器,更节省零件。 或者还可以假设你是一名维修工,如果一个零件的功能多,那么,你外出维修时,需要带的零件就会大大减少。 亦或者我们可以把每个字符当成一个个人。 有的人是一个人干一个人的活; 有的人能力强、多面手,一个人能干四个人的活。 如果把两种人分别组成公司,完成同样的工作和工作量。 前者组成的公司如果是20个人,后者组成的公司则只要5个人足矣。 功能多,会的多,就是信息熵高。 就像那句话说的——未来不可限量。 这是因为能力强、能力全面,能胜任的工作多,干什么都可能很厉害。 于是,未来到底会在哪方面脱颖反而难以说清,不确定性很强。 对于这样的人,我们总会情不自禁地感叹道:他的故事一定很多。 看,这不就是信息量多吗?!哈哈! 汉字信息熵大,信息量大,表现出来就是言简意赅,这样造成说出来的每个字都很重要,冗余度小,难猜,所以,中国人说话的声音就会偏大。 本文由“坤鹏论”原创,转载请保留本信息 |
|