分享

从相关性到因果性-读《The book of why》

 树悲风 2018-07-26

记得读《这才是心理学》时,记得最清楚的就是相关性不等于因果关系,而在最近20年里,在如何公理化的进行因果推理这个问题上,学界取得了突破性的进展,今天要介绍的《The book of Why》,这本书是因果推理和贝叶斯网络的奠基人Judea Peral和科普作家 Mackenzie, Dana合作写的一本因果推理的入门书,出版于今年515日。

 

 

得到APP上万维刚曾经用6天的时间来讲解这本书,但我却觉得若是只听了万维刚老师的解读,就以为掌握了这本书的精华,那可真是夜郎自大的可以。多少聪明人在因果推导的问题上犯过错误,本书的作者Judea Pearl就在书中坦言自己曾经犯过的错误,一个82岁的老人能够坦言自己在自己创立的学科中曾走过弯路,也曾在书的序言中说这本科普书的写作是他一生最大的挑战,那你我在读这本书的时候,感到迷茫,需要反复去阅读,也是再自然不过的。


 

这不是一本好读的书,在阅读这本书之前,可以先上一门在线的免费课程,是edx平台上的,名叫Causal Diagrams: Draw Your Assumptions Before Your Conclusions。如果你能拿到这门课的certificate,那这本书中技术的部分,对于你就是一次温故知新的过程。由于这本书中有太多技术的细节,虽披着科普书的称号,实际却是本科高年级水平的教科书,所以这篇读书笔记就不会涉及这本书技术的部分,而专门来谈谈这本书引发的思考和脑洞。

 

 

 

选择“2001太空漫游的开篇音乐作为配曲,是想让读者回忆起电影中那个经典的蒙太奇,从拿起石头到走入太空,相同的部分初看是使用工具,但从思考问题的方式来看,相同之处是这都意味着要进行反事实的思考,也就是问如果在一个虚拟的情况下,会发生什么?人类简史中说人类合作的基础是人类讲故事的能力,而故事里都是骗人的,那人类的大脑是为什么要进化出讲故事的能力了?这个问题就像人类为什么要具有自由意志这样一种错觉一样,都是我读了《The book of Why》之后想到的一些形而上的思考。为了能说清楚这样的问题,先引用书中的一副图,说说思考问题的三个层次。

 

 

孩子从小就玩过家家的时候,就在问第三个层次的问题,在玩玩具的时候,在问第二个层次的问题,等到长大了,却只会问第一个层次的问题了,这也不怪大人,大人的世界里的问题都影响太深远,比如全球气候变暖在多大程度上导致了极端天气现象的出现。

 

面对因果性的问题,有二种常见的错误,第一是搞不清因果关系,就用相关性来代替,潜移默化的偷换概念,第二是摆事实却不讲道理,只说发生了什么,至于是否有关就靠诱导性的提问暗示你去脑补,不管那一种,都是逻辑上的稻草人谬误,将所需要论证的问题弱化。实话实话,在自己过去的文章里,犯过类似的错误。

 

论证时逻辑不清晰,首先体现在自己能不能分清楚自己需要讨论的是上图中那一个层次的问题。比如最近刷屏的疫苗事件,大多是道德的批评和宣泄,然而感性的表达无助于解决问题,需要的是将问题分开来讨论。恶意造假的归刑事案件,失误导致的效性不足的归监管制度,而不相关的其他疫苗,比如预防宫颈癌的HPV疫苗,则要避免受到牵连

 

理性的分析问题,要能够做到指出因果性的链条要做的是列出已知的事件有那些,这些事件间可能的因果链的方向是怎样的,每一个方向上的推演有多少证据去支持。比如加大惩罚的力度,能不能避免疫苗引起的悲剧的重复,面对这样的问题不能只摆出美国日本天价罚款的例子来,仿佛别国这么做了,一定能以儆效尤。通过数据,去估算加大惩罚力度企业的影响。如果惩罚力度太大,那企业就会将风险分摊在成本中,最终受害的还是消费者,如果惩罚太轻,抽查的比例有太低,那企业造假就变得有利可图。

 

如果不讨论就下结论,那就是用道德审判逼死正常经营的企业。到头来受损的也还是普通人。如果全面的拒绝打疫苗,那传染病就会回来,如果盲目的相信国外的疫苗,那么黑诊所中走私的没有经过检验的疫苗就一定会造成更多的伤害。任何一个公共事件,都是一个教会公众批判性的思考复杂问题的机会。当前面对的不是该如何叫醒一个装睡的人,而是如何叫醒那些梦游的人梦游者高声说着梦话,以为自己说出了真理,但梦中只是反射出潜意识里的恐惧,没法指示未来的方向。

 

因果性的问题该怎么去说了,《The book of why》这本书没有明确的给出建议,我从书中的例子中总结来看,可以归纳为以下几点

1)明确的说出你想论述的因果关系是关于那俩个事件的?这些事件分别有着怎样的取值,比如你要论述喝酒有害身体健康,你要说清楚喝酒是喝什么酒,每周喝多少,持续多长时间,戒酒之后是否还会有影响,你还要说清楚喝酒会造成那些疾病的发病概率上升,会影响那些体检指标。只有说清楚了要分析的是什么,之后的分析才有坚实的基座。

2)要问自己有哪些事会即会影响到喝酒的多少,也会影响到身体健康。比如你可以说天气冷的地方人喝酒多,于是解释说喝酒多的人平均寿命低,那不过是因为天气冷的地方本来就会人均寿命低。为了论证喝酒有害健康这回事,就需要排除这个干扰因素,用统计学的语言,就是要对天气这个因素进行控制。要完善的论述因果关系,就要尽可能的列出有那些因素会干扰分析。

3)要问问喝酒和身体不健康分别会那些会导致那些相同的后果,比如身体不健康的人和喝酒多的人吃得饭的卡路里都较多,这时在分析的时候,就不应对平均卡路里这个因素进行控制,如果控制了,反而会影响因果分析。这是由于饮食卡路里的数据中已经包含了饮酒造成的影响,书中关于这点举的例子是为什么相亲遇到的人都是即有些坏又有魅力的。(答案是另外两个极端是不会来相亲的)

4)要问喝酒是通过什么样的机制造成身体不健康的。比如长期喝酒会增加血脂,从而使的心血管疾病更容易发生,只有弄清了喝酒为什么会导致身体不健康,才可以回答如果现在开始戒酒会有什么好处,以及该怎么改进酒精饮料才能让喝酒不伤身这样的反事实性的问题。

 

读者也许会问,这些问题用语言描述不够清晰,的确。语言是描述世界的图示,而因果性是串联起这个图示的绳索,人类使用的自然语言附带的默认思维模式就是因果关系,但自然语言善于描述的因果是因果关系的结论,而不是其埋在地下的根。更好的方式是用有向图,每一个点代表一个事件,每一条边代表一个因果关系,边上的数字代表因果关系的强弱,而这样的图又被称为因果图(Causal Diagram)。

 

上面是因果图的一个例子,是不是一图顶千言。看到这样的图,你应该会问,为什么你认为不是吸烟改变了吸烟基因,这其实是一个假设,就如同欧几里德几何中的公理,是来自于各个学科的常识,是被从业者广泛认可的先验知识。因果图的最大的优点就是把因果分析中的假设放到明面上,如果你认可这些假设,那么接下来的推理就如同几何证明一般,可以自动的由观察到的数据去推断出因果关系,并回答反事实性的问题(严格的说,不是所有的情况都可以,但本文不细说这点,书中有所涉及)

 

 

接下来说说这本书中的科学史故事,本书的作者Judea Pearl是一位纯粹的科学家。我看到这本书的作者时,想到的是贝叶斯网络这个让Pearl获得图灵奖的发明,作者在第一章就指出了贝叶斯网络的根本不足,同时也没有否认贝叶斯网络在实际应用中的巨大成功。他贝叶斯网络看成是通向因果推理的路上的副产品。因果推断的方法在很长的一段时间里被主流学界忽视和误解,直到其在AI研究中发展成熟,才反哺遗传学,流行病学,社会学,经济学等其他学科。

 

为什么因果推理能够在AI中发展,是因为其有用,能够解决实际问题那怕是一些看起来人工智障的toy problem。都说科学的发展是技术进步推动的,而技术进步的动力则来自对自动化的追求面对复杂的问题,研究者要做的是能够通过一套流程,来自动化的解释不断积累的相关事实,并时不时修改自己解释事实的流程。

 

最后说说这本书给我印象最深刻的一章,关于悖论的第六章。对两个熟悉的悖论,用因果关系的视角去重新审查,得出了全然不同的思考。语言是和世界的一一对应的图示,而任何一套完善的思考方式,都是一种对世界建模的方式,因此也可以看成是一种语言,学会每一门学科,甚至每一种技术都可以看成学会了一种语言。当你学会一门外语,你就可以去试图将其他领域的知识用这门外语翻译出来,看能不能得到一些新的启发。比如我在写这篇小文的时候,曾想画一画金庸小说中的因果关系图,但这个可以留给读者。

 


 

 


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多