小时候你有没有相信过这样一些“规律”:
但是我们坚持了很久以后,却发现并没有什么用。回头想想更像是父母让我们运动和吃东西的话术套路:
长大后,我们不再迷信这些“偏方”。但我们依旧会固执的认为:
如果你还迷信这些想法,你可能需要好好看看本文接下来的内容了。 相关不代表因果在统计上,相关和因果是两个完全不同的概念。举个例子,大家就能理解了。 有数据显示,同一时期内销售的冰淇淋数量越多的话,海滩度假村的溺水次数也就越多,也就是溺水死亡人数和冰激凌售出量之间呈正相关性。我们是否可以得出结论,是因为人们吃冰激凌比较多,才导致的溺水? 显然不能,这两者之间几乎没有任何因果关系。 这两个事情背后的原因,其实都是夏天气温升高。因为气温高了,所以人们爱吃冰激凌了,也有更多人去游泳了,这也增加了溺水的风险。 在上述这个例子里,相关性误导了我们,让我们误以为事物之间存在着因果联系。 从统计学的角度来看,相关和因果有着明显的区别:
因果一定相关,比如你吃海鲜过敏,那么你吃海鲜后,肯定会伴随着过敏。 相关也不一定是因果,因为相关的两个变量背后,可能有共同的第三方因变量。比如前文所说的“夏天”这个第三方变量。 回到本文开头所说的那两个案例:
如何确定因果关系? 通常来说,因果关系必须满足三个条件:
相关依旧有其价值比起因果关系,相关并非完全没有价值了。相关意味着我们可以进行预测,而预测意味着我们可以制定策略。 比如尽管我们不知道吃冰激凌和溺水之间有没有因果关系,但是我们依旧可以设定一个报警,当我们开始大量吃冰激凌的时候,增加人力保护大家游泳安全,同样可以起到不错的效果。 我们都听说过蝴蝶效应,微小的变量能带来巨大的影响变化。 在复杂的现实环境中,很多变量之间的关系是错综复杂的,没有办法找到简单的因果关系。而且即便存在因果关系,这种关系也可能是非线性的,是时间延迟的。因而大部分时候,因果关系并不可得,我们只能利用好观测到的相关性。 AI是一个利用相关性的杰出产物。 以推荐算法为例,淘宝发现客户购买商品和行为之间的相关性,从而让推荐算法向用户呈现有意义的相关产品。 百度发现用户点击行为中的相关性,进而向搜索用户提供给有用的信息。 这些算法模型没有直接给出用户偏好产品A和产品B的原因,但会根据相关性给出有效的选择,从而提升商业效率。 学会区别相关和因果,是理解事物的第一步。而学会利用相关和因果,是打开新世界的那一步。 |
|