从今天开始,坤鹏论将进入到阶段性的思考整理。 脉络将是从信息熵,到熵,再到复杂性科学,一直回到这个系列的起点塔勒布的《反脆弱》。 一、这是一个概率统治的世界 随着不断地学习与思考,坤鹏论越来越感觉到,香农的信息熵与热力学的熵,基本就是一回事。 热力学的熵,还有后来由其派生出来的麦克斯韦妖,其最重要的贡献以及开创是: 由概率到统计,再到脱离成为普适的自然规律,信息熵亦然。 写到这里,坤鹏论突然有些顿悟——这所有的一切皆因为我们的世界、我们的宇宙完全是在概率统治之下。 那么,这个世界的最强法则应该是概率。 我们常说,除了死亡,一切皆有概率! 但是,如果不以肉体消灭为标准,而是从基因和遗传信息的角度看(想想之前坤鹏论举过的柳絮的例子),那真的是一切都有着概率。 既然如此,只要牢牢把握住概率这条真理,从它出发,坚定地前行,都能够获得不菲的成就。 那么—— 不管是熵; 还是信息熵; 亦或者复杂性科学、复杂性系统; 其实都不过是概率下的蛋! 所以,不是它们牛,不是它们是自然规律。 而是它们摸到了支撑这个世界背后的真理——概率。 尽管都只能算是一方面,一点点。 并且,但凡能够理解概率,并应用到实践,都是很牛的事和很牛的人。 比如:保险、赌博、金融、投资等。 比如:巴菲特、索罗斯等投资大师,他们成功的关键就在于——风险的管理。 而概率就是风险的数学语言。 所有投资,不管是价值投资,还是投机。 只要是投入今天的钱购买未来,哪怕未来就是下一秒,都会有概率,都有风险。 所以,这种行为应该统一称为风险投资,或者概率投资。 而以概率为灵魂的学科则可以被视为人类探究概率的工具,比如:统计学。 统计力学也是,信息论也是。 没有概率,它们都不可能存在! 二、无序?不确定性?其实都是概率 正如上面所说,概率才是这个世界至高的规律。 所以,只有从概率的角度去理解熵、信息熵,才能算是本质级的理解。 下面,坤鹏论就以信息熵为例说明一下。 香农用熵度量的是不确定性。 而维纳则用熵度量无序程度。 如果站在概率的高度,就知道它们从根本上就是一回事。 一段文字的内在有序性越强,其可预测性也就越高。 换用香农的话来说,也就是后续字母所传递的信息量越少。 如果你对下一个字母是什么,信心十足,那么这个字母就是冗余的,它的出现没有贡献新的信息。 信息,就是出人意料! 而出人意料其实讲的是概率。 比如:在英语中,如果紧跟在字母t之后的是字母h,那么信息量就不大,因为字母h在此出现的概率相对较高。 而不管是维纳的无序度,还是香农的不确定性度,但它们都叫熵,这已经证明了,它们和热力学的混乱程度是一个意思。 我们再来重温理解一下,为什么熵越大混乱程度越大? 什么时候热力系统中没有熵呢? 就是只有一种微观态的时候。 这时的概率是1,其他微观态的概率为0,这就是完全的有序,没有混乱度。 那什么时候系统中熵最大? 自然是所有微观态的概率相等的时候。 这时,系统对于取什么微观态没有偏向性,所以混乱度最大。 接着,我们再理解,为什么熵越大,信息量越大? 因为熵越大,系统承载信息的能力越大。 道理很简单! 所有微观态等概率出现时,也就是系统中存在着所有微观态。 将微观态直接视为信息,想想看,明白了吗? 而一个熵为0的系统只能取一个微观态,自然承载不了任何信息。 因为,信息是消除不确定性的东西,一个微观态自然就没有不确定性,自然就能闭着眼选择,根本不用”还能说什么“,自然也就没有信息了,也就没了”还能说多少“——信息量。 然后,我们再理解,为什么信息熵中,语言越”混乱“,信息量越大? 这最好从语言的上下文关联度来分析。 英文单词中的字母相关度很高,比如:ing、tion,以及各种前缀后缀。 因为相关度大,所以就算从ing、tion中拿掉一个字母,也完全不会影响阅读。 显然说明了这些组合中单个字母提供的信息量很小。 而中文的上下文关联度低很多,所以,单个汉字信息量大。 由此,结论就是: 上下文关联度越高,也可以理解为符号系统越有序,不确定性程度越低; 上下文关联度越低,也可以理解为符号系统越无序,不确定性程度越高。 因此,将信息的不确定性用熵来命名再恰当不过,它和统计力学中的熵,就是同一个问题——概率。 还记得坤鹏论在复杂性科学中讲过的混沌边缘吗? 那是一种最好的系统状态。 琢磨一下,有没有发现语言其实也符合混沌边缘的道理。 简单联想一下就能明白。 假设一群人开会,人们越是意见不一致,越是混乱,人们越希望表现自己的意见,于是大量信息会不断产生。 而往往正是这样的会议才证明了公司的活力四射。 最可怕的会议是,只有有序,没有混乱。 也就是只有领导滔滔不绝,其他人全都默不作声。 所以,复杂性系统同样也是概率的问题。 这可能就是传说中的融会贯通,大道至简,殊途同归吧! 三、麦克斯韦妖 坤鹏论曾经讲过《人类就是麦克斯韦妖》。 在这个著名的思想实验中,麦克斯韦妖在密闭容器中所做的只是控制闸门。 它如何控制闸门? 分子过来时,它会根据它运动的速度和轨迹,判断是快分子,还是慢分子,从而选择是否开闸门。 而分子运动的速度和轨迹,就是信息。 也就是说,麦克斯韦妖根据获得的信息作出选择。 它每处理一个分子,都是做了一次信息与能量的转换。 提出这个观点的齐拉特的贡献非常伟大,因为自此之后,信息也是物理的了。 正如布里渊所论述的,麦克斯韦妖要看得清楚分子,不可能摸黑进行,必须要有灯光照在分子之上,光被分子散射,而被散射的光子被麦克斯韦妖的眼睛吸收,这样它才会看清。 这意味着,麦克斯韦妖不做功,要使系统熵减少,必须获得信息,这需要通过(眼睛)吸收外界能量实现。 因此,麦克斯韦妖这个思想实验的先决条件——密闭被打破了。 自此容器不再密闭,而是可以接收外部能量。 也只有这样,麦克斯韦妖才能干活。 我们可以这样设想修改版的麦克斯韦妖: 外部注入能量,使得麦克斯韦妖看得清分子,从而获得它们的运行速度和轨迹信息,根据信息,麦克斯韦妖做出是否开闸门的选择。 这是一个能量转换为信息,信息再转换为能量的过程。 有了上面这个基础,我们再来看香农的信息论和信息传输模型。 你会发现其实就是麦克斯韦妖实验的现实翻版。 容器:所有可能讯息组成的集合 分子:字符 麦克斯韦妖:信宿,接收者 外部能量:信源 麦克斯韦妖的功能是在获得分子运动的信息后,通过操作闸门做出选择,分离快分子和慢分子,从而减少系统的熵。 一个信息集合的接收者同样也是在接收到信源的讯息后,做出选择,减少信息集合的信息熵(不确定性)。 并且,不管是麦克斯韦妖还是接收者,他们都很单纯地做着是或否的二元选择题。 麦克斯韦妖只关心是快还是慢。 接收者只关心不确定性和确定性。 四、接收者=麦克斯韦妖 自从香农提出信息论后,他迅速成为了学术圈内的当红人物,享有偶像级的声望。 有时,他还会到大学和博物馆就“信息”进行通俗的演讲。 在这些演讲中,他曾引用过《新约·马太福音》第5章第37节的话: “你们的话,是,就说是;不是,就说不是;若再多说,就是出于那恶者。” 这就牵扯出了信息熵另一个定义,它是通过只允许回答是或否的问题,来猜出一条未知信息时所需问问题的平均数目。 坤鹏论认为这个讲成实例,很容易让人理解信息熵是怎么一回事,那就不厌其烦地分享给大家,希望大家也不厌我烦地读一读。 假设你是麦克斯韦妖,如果分子是一快一慢成对过来,表面上看不出区别。 那么,你需要提几个问题可以知道它们的状态呢? 对的,只需要一个问题。 你可以问:“A是快(慢)分子吗?”; 或者问:”B是快(慢)分子吗?“ 如果对面一下子来了A、B、C、D四个一模一样的分子,其中只有一个是快分子,你需要提几个问题来确定它? 有人可能会下意识地说,4个! 惯性思维害人呀。 明智的提问方法是二分法。 你可以先问:A和B中有一个是快分子,对吗? 分子回答说:是。 你可以接着问,快分子是不是A(或B)? 分子回答说:否。 那你就知道答案肯定是B。 整个过程,一共2个问题。 如果答案不是A,也不是B。 答案自然就在C和D中间,你只需要再问:快分子是不是C? 分子回答说:否。 你自然就知道正确答案是D了。 还是提两个问题搞定。 也就是,如果4选1,你平均需要提两个问题能够得到确定答案。 显然,你提问题的过程,就是在消除自己对分子的不确定性。 香农将对于分子的不确定性称为信息熵。 为了衡量信息熵,香农建立起了它与概率的数学关系,也就是从不确定性到确定性,需要提出问题的平均数量。 因此,上面的例子中,两个等概率的分子,提一个问题知道答案,信息熵就是1比特,四个等概率的分子,提两个问题知道答案,信息熵就是2比特。 坤鹏论以此为例,换个角度再讲一遍信息熵,其目的是,回到初心,回到热力学的熵,回到熵与信息发生关系的麦克斯韦妖,最终回到概率! 本文由“坤鹏论”原创,转载请保留本信息 |
|