当时,英国的检察官因为统计不当和建立错误的因果关系,造成了这场著名的冤案。事实上,我们生活中也不免掉进一些思维陷阱,比如:
遇到这些事,你当时是不是马上想到“哪有这么巧的事!”,你断定它们之间一定有某种“独特的联系”。那如果我们再对刚才的两个事件,进入更深层次的分析,发现了更多的线索,会发生什么呢? 比如事件1中,新同学正好还是我的同桌,事件2中,每次都在同一路口偶遇…… 天啊,分析到这里,你一定对你心中那个“答案”深信不疑。但其实有些事…… 只是“看起来相关”罢了 你想知道如何写结课论文才能获得高分,就去找所有修过这门课并且得了85分以上的学长学姐,向他们询问获得高分的关键因素。然后你得知,这些前辈中,有90%都用了宋体,有60%说每页至少有一个图表,还有30%的人建议你在 deadline 的前一周就要提交文档。 这是否意味着这些因素和获得高分之间存在相关性呢? 不是的! 结果已经形成了,时间无法倒退。我们无法预测如果他们当时用了黑体,或者在 deadline 前一天晚上才提交文档,结果会不会不一样。也无法确定是否其他因素才是导致高分的关键。 同理,人们经常问那些成功人士的人生诀窍,然后企图复制他们的成功方法甚至生活方式,认为这样自己也能走上同样的成功之路。 他们的成功真的可以复制吗? 从成功人士的传记里,人们不善于分辨哪些因素是重要的,哪些因素是次要的。我们心理经常会先入为主地“偏爱”一些因素,然后将这些因素和成功建立起子虚乌有的联系。 我们不能仅仅调查那些成功者的秘诀,比如在上面结课论文的例子中,有一群人可能也用了宋体但分数就不怎么样,如果你去询问了这群人的意见,他们说不定就会建议你用其他字体。 如果不能全面地调查成功的例子和失败的例子,我们甚至不能确定事物之间是否存在相关性。 总之,这种表面上的相关可能真的就是巧合:很有可能你一周遇到你暗恋的人好几次,只是因为你俩都喜欢提前10分钟到达学校,作息时间行动路线相似罢了。而你的手机被盗,或许也只是因为你平日经常炫富,早被小偷盯上了,碰巧计划在当天下手罢了——换个角度,如果换作你是初来乍到的新同学,你有多大可能,第一天上学就偷新同桌的手机? 相关也不等于因果! 有时经过调查统计,我们会发现两个变量在数据上的确有相关性,而且是很强的相关性,这时我们也不能盲目下结论。
“相关不等于因果“——统计学专业的学生应该听得耳朵都起茧子了。但人们一旦面临真实生活中的事件,却往往又会被“相关性”误导。 比如经过调查,某城市里婚前同居的人群,和没有进行过婚前同居的人群相比,有过婚前同居的人群离婚率高于没有在婚前同居过的人群。那我们是否可以得出这样的结论,婚前同居非但不能让婚姻更稳定,还导致了离婚的可能性增加? 并不可以。 婚前同居的人群比婚前未同居的人群离婚率高,可能会有这样一个原因:选择婚前同居和不选择同居的人在观念上存在差异,选择同居的人一般观念比较前卫、开放,他们在结婚以后如果相互之间出现矛盾或者遭到另一半的背叛,他们也更倾向于大胆地摆脱这段婚姻的束缚,而不是在失败的婚姻中委曲求全;而不通过婚前同居而直接结婚的人,他们的观念相对比较传统,很多时候即使婚姻出现问题,他们会更倾向于维持现有的婚姻,而不会轻易离婚。 简而言之,并不是婚前同居导致这些人容易离婚,而是前卫的观念导致他们既容易“婚前同居”也容易“结束婚姻”。 还有,我们现代人都知道,吸烟会导致肺癌和其他多种致命疾病。但关于吸烟和肺癌的因果关系,历史上曾产生过很多争论。 现代统计科学的奠基人之一,英国的统计学家 R.A.Fisher 就发表过这样的观点:即使我们观测到吸烟和肺癌之间的正相关性,也不能断定它们之间有因果关系。可能存在一个未观测的基因,它既使得某些人更可能吸烟,又使得这些人更可能患肺癌。因此,即使吸烟和肺癌没有因果关系,这个未观测的基因也可能导致吸烟和肺癌是正相关的。 在这里我们并不是想抨击或者赞美 Fisher 对烟草的这套“洗白”言论。而是通过这一例子,说明在广义层面上相关性不能充分说明因果关系。 当我们在两种变量之间发现相关性时,必须考察一下是否有一个共同的隐含因素在同时影响着这两个变量——考虑“大树“和“小草”同时生长的时候,是否还隐藏着“春天”这一隐含因素…… 别被统计数字迷惑了! “用数据说话”本身没有问题,但如果你仅仅根据统计数据就凭第一感觉对因果关系做出判断,可能会犯了“忽略变量”的错误。来看下面这两个例子: 统计数据表明,相比起美国的其他州,佛罗里达州的死亡率会大大高于其他州。 有人马上就会说,啊,难道说这个州的环境超级恶劣超级不适合人类生存吗?以后可千万不能移民到这里啊! 但事实上,从年龄结构上去分析时就会发现,佛罗里达州的老年人人数大大多于其他州,这就直接导致它的死亡率很高。 再比如说,你手上有一份医院某个科室的医生名单,你发现老王医生的病人死亡率是其中最高的,你的感觉是不是这个王医生太差劲了,可千万不能找他治疗啊! 但事实可能和你的第一印象正好相反,王医生的医术很可能是其中最强的。因为他医术精湛,他吸引来的都是病情特别严重的病人,或者其他医生推荐过来的难以医治的病人。所以即使他的医术高超,病人的死亡率也不容乐观。但是对于每个具体的病人来说,找王医生进行治疗其实是最好的决策。 这几个例子说明,我们在拿一些群体做对比的时候,单纯从统计数字出发得出结论,对某个群体来说可能是“有失公平”的。因为我们往往忽略了其他隐形变量。在第一个例子中,这个被忽略的变量是“人口平均年龄”,在第二个例子中,则是“病人的病情严重程度”。 所以现代的医学家和社会学家在采取试验验证因果关系时,会在一开始对样本进行人为干预,将样本随机分配到不同实验组,这样一开始就能排除很多干扰因素。 想象一下如果我们把不同的病人随机地分配给各个医生治病,居民随机地分配到各个州去居住,那么“王医生”和“佛罗里达州”的死亡率就不会那么骇人了。 世界好复杂,我该怎么办? 现实社会不是实验室,我们没有条件或者没有时间像学者那样进行这种严谨的试验。很多时候我们只能凭借有限的信息,在这个错综复杂的世界做出决策。 下面我们提供一些判断方法,供你在信息有限的情况下,对一些因果假设的可信度做出评估。 值得一提的是,在因果关系可信度检测这件事情上,总是会有各种特例,没有一个通用的试金石能适用于所有的情况。 1. 问自己:差别有那么大吗?! 行动A对结果B产生的影响越大,就更加有力地证明事物之间存在联系。 有些地区给中学生发放了未成年性教育的手册,还有一些地区没有发放;如果前面那些地区的青少年怀孕率只比后者低一点点,那么用这种数据证明发放性教育小册子可以对青少年怀孕率起作用,就没那么有说服力。 当然,在有些情况下,事物之间联系不强不代表一定没有因果关系。上一段中讲到的一些案例也表明很强的相关性也不一定说明就有因果关系。 对于相关性的强度是否能够有力证明事物之间存在因果关系,我们需要考虑的问题有:
2. 问自己:可以复用吗? 真正的因果关系不应该只在一个试验中存在,应该是具有可推广性的。 想象一下政府在一家叫银拱门的快餐店做了个试验,得出了结论:公布食物热量信息,会降低顾客所点食物的总热量值。如果这个结论真的成立,那么应该在很多同类的餐厅都适用。 假设另一家叫老头乐的快餐店采取同样的做法却没有改变顾客的点餐行为,我们就会质疑这个政策也没什么作用吧!银拱门点餐量变少或许是巧合吧! 当我们在试验中,发现试验结果不具有可重复性,也就是在另一个试验中并没有表现出预想结果,这时我们也不能对我们的观点全盘否定。因为,有可能是让某个原因起作用的关键因素,在第一个试验中出现了,但在另一个试验中却没有出现! 比如,有个人在非洲被蚊子叮过后感染了疟疾。于是人们得出“被蚊子叮是感染疟疾的原因”这个结论。然而在其他的试验中,蚊子叮完人,人也平安无事。因为,只有感染了疟疾的蚊子才会传播疾病,健康的蚊子并不会把人叮出病来。 “感染了疟疾”这个关键因素,在其他试验中用的蚊子身上没有出现。导致这个结论在另一个实验中没法推广。 因此,在搞清这个因素之前,我们既不能说,“只要被蚊子叮咬就会得病”,也不能说“蚊子和得病没有关系。” 3. 问自己:谁在先?谁在后? 弄清事件发生的顺序,也是寻找因果关系的关键。 是学校附近网吧数量增多,导致课堂出勤率降低;还是课堂出勤率降低,导致学校附近网吧数量增多? 因为原因会在结果之前出现。如果不弄清事件发生的顺序,我们就容易乱建立因果关系,或者把因果关系搞反。 当然,除了两件事情的先后顺序,我们也必须考虑时间间隔,根据实际情况分析这种时间间隔是否合理。 举个简单的例子,你吃了校门口路边摊肉串几秒钟后就拉肚子了。虽然吃肉串发生在拉肚子之前,你也不会判断它是你拉肚子的元凶。 4. 问自己:有同类给它撑腰吗? 如果我们了解到有一个相似的因果关系,那在类似的推论里,就可以适当降低对证据的要求。 如果“餐厅标出食物的热量能导致人们点的食物的总热量减少”这个结论已经得到了证实。我们就知道公布食物的营养数据有可能会改变人们的点餐决策,那么“餐厅标出食物的脂肪含量,能导致人们点的食物的脂肪含量也变少。”这个发现也就显得很可信。 这也就是为什么医学上会利用关于动物的研究来更好地了解人类。 升级一下“思维操作系统” 我们日常的一些默认思维方式,并不存在对错,因为很多就来自于人类进化历程,每种生物从出生,都会自带一套默认操作系统,它具备的一些基础功能和思维模式,能够满足基本的生存所需。但作为有当代有追求的年轻人,时不时的升级一下底层的操作系统,也不失为面对这个复杂世界最好的方法。 薛饿的口号:“看完我们三分钟脑洞视频,你的生活依然不会变得更好“。同样道理,经常升级“思维操作系统”,也并不一定就能过好这一生,但至少能够让我们具备观察世界一种全新的角度,也不是坏事。 |
|