分享

统计学远比你想象得要深奥和重要,绝大多数人看不到其背后逻辑

 taotao_2016 2024-03-26

图片

相关性不等于因果关系,这是一个常见的统计学概念,即使你不懂统计学,也可能听过这句话。这句话提醒我们,我们的大脑在寻找模式时并不总是可靠的。有时,两件事情看似有联系,但实际上这种联系可能只是随机事件产生的错觉。换言之,我们有时候会错误地将两件事情之间的关联解释为因果关系。例如,当我们吃止痛药并期望头痛消失,或者在健身房举重并期望肌肉增长时,我们是在基于因果关系的假设来解释这些情况。

原因产生结果,但当你真正思考时,要准确定义什么是“原因”却可能非常复杂。

图片

当我们说一个事情导致了另一个事情发生,我们是在说什么?比如说,我们常说“吃太多糖会导致牙齿蛀牙”,这就是一个事情(吃太多糖)导致了另一个事情(牙齿蛀牙)发生的例子。但这句话想让我们思考的是,当我们说“导致”这个词的时候,我们到底是想表达什么意思?是不是每次吃糖都一定会蛀牙?还是只有在特定条件下才会这样?这就需要我们更仔细地思考和分析了。

图片

此外,我们如何在统计模型中形式化这一点?幸运的是,比我聪明得多的人已经思考了这个问题,并将其变成了统计学的一个子领域——因果推断(causal inference。因果推断是过去50年中统计学中最有影响力的思想之一。

制药公司和科技公司都非常感兴趣于区分原因和相关性因果推断的目标是接受这个观点——相关性不等于因果关系,并弄清楚它们何时相等,以及需要做什么或假设什么才能使它们相等。这绝非易事。

下面,我将告诉你,是什么困扰着统计学家们的。

在日常用语中,“相关性不等于因果关系”是指在两个事件之间看到因果关系的想法,而实际上并没有任何关系。

图片

但什么是相关性?顺便问一下,什么是因果关系?首先,我将从统计学的角度区分这两者。

广义上讲,相关性可以指两个随机变量之间的任何关联。关联是我们在两个随机变量之间看到的倾向。我将关注大多数人所知道的那种相关性——皮尔逊相关系数(Pearson's correlation coefficient,用希腊字母ρ表示。

这种相关性关注两个随机变量之间的线性关联。假设我是一位统计学教授。我给我的学生布置了一个家庭作业,收集了一些关于他们的数据。其中一个变量是学生在家庭作业上花费的时间,另一个变量是他们在作业上实际得到的分数。我可能会看到的一种倾向是,花更多时间在作业上的人往往会得到更高的分数,同样,几乎不花时间在作业上的人往往会得到较低的分数。这就是所谓的正相关(Positive association

图片

我只注意到,较长的工作时间通常与高分数配对,较短的时间与低分数配对。一旦我收集了这些数据,我可以使用这个方程来计算这两个随机变量之间的相关性,

图片

在这种情况下,X指代在家庭作业上花费的时间,Y是他们得到的分数。

E代表的是期望值(数学期望),它是概率论中的一个概念,通常可以理解为平均值。在这个公式中,E[X] 表示X的平均值,即所有学生在家庭作业上花费时间的平均值;E[Y] 表示Y的平均值,即所有学生得到的分数的平均值。

X_i - EX描述了一个学生偏离平均工作时间有多远;而Y_i - EY则描述了学生分数偏离平均分数有多远,所以这是这两个偏差的乘积。

我在散点图的中间标出平均值,并将图分为四个象限,

图片

上面青色阴影部分的点将产生正乘积,而红色阴影部分的点将产生负乘积。通过取所有这些点的所有乘积的平均值,我们可以了解这两个变量倾向于更多地正向或负向变化

如果在所有象限中有数量相似、大小相似的乘积,那么当我们算出这些数据点的平均值时,正数和负数会互相抵消。

图片

无论X的值如何,Y的值似乎没有一个一致的增加或减少的趋势,这表明X和Y之间没有明显的线性关系。从视觉上看,散点图显示Y不随X的增加或减少而在任何特定方向上发生变化。

图片

分子中的这个期望值有一个名字——协方差(Covariance)。协方差衡量的是两个变量的变化趋势是否相同。协方差可以告诉我们,当一个变量偏离其平均值时,另一个变量也是如何偏离其平均值的。

分母包含两个随机变量的标准差的乘积,通过除以这个乘积,我们将协方差标准化为介于-1和1之间。

图片

其中1表示完全正相关,-1表示完全负相关,0表示没有相关性。无论原始数据的单位或量级如何,相关系数都会被标准化到-1到1的范围内。这使得不同的相关性可以直接进行比较,因为它们都在同一个标准化的尺度上。在计算相关系数时,我们会考虑到每个变量自身的波动性(方差)。通过除以两个变量的标准差的乘积,我们可以消除变量自身波动性的影响,从而更准确地衡量它们之间的关系。

相关性并不说明一个变量如何影响另一个变量只是说明它们倾向于以相同或相反的方式偏离平均值另一方面,因果关系在两个变量之间划定了明确的界限,一个变量的变化(原因)会导致另一个变量的变化(结果)与相关性不同,你不能颠倒两个变量之间的关系,结果依赖于原因,而不是反过来

因果关系是一个复杂的主题,在统计学的世界里,我们还必须处理随机性,这只会让它变得更加复杂。因果推断中的一个重要概念,即反事实框架。反事实框架是一种思考和分析因果关系的方法,它考虑了一个假设性的情况,即如果某个因素(比如治疗或干预)没有发生,结果会是怎样的。这个假设性的情况就是所谓的“反事实”,因为它与实际发生的情况相反。

回到前面的例子,因果推断在原因变量是连续的时候变得非常复杂,所以我会简化这一点。不是让学生随便花多长时间做家庭作业,而是只能让他们花1小时或2小时做作业,不多也不少。一组人会选择1小时,其余人会选择2小时。同样,他们会得到一些分数。每个学生都有一个反事实,对于1小时组的学生来说,他们的反事实是如果他们在2小时组,他们会得到的分数,反之亦然对于2小时组

让我们放大看一个单独的学生。给定一个学生及其反事实,实际发生的事情和反事实之间唯一的不同是,这个学生多学习了一个小时。

图片

这意味着实际和反事实之间的任何差异都必须归因于那额外的一个小时的学习。因此,这种结果的差异是这个学生在额外学习一个小时上的假设因果效应(Causal Effect)

图片

在现实生活中,我们无法直接观察到所谓的“反事实”情况,即那些与实际发生的情况相反的假设性情况。例如,我们无法看到一个学生如果没有学习某个特定的时间,他们的考试分数会是多少,因为我们只能看到他们实际学习了那段时间后的分数。尽管如此,这种思考反事实的方式对于理解统计学家和因果推断研究者是如何考虑“原因”这一概念的仍然很有帮助。

此外,尽管我们无法直接观察到反事实情况,但我们仍然可以使用其他策略来绕过这个问题,并估计其他类型的因果效应。

一种策略是计算平均因果效应,而不是个体因果效应。这就是AB测试随机临床试验所做的。但这里有一个问题:AB测试的数据看起来与家庭作业实验中收集的数据没有太大不同。事实上,它们可以用相同的统计模型分析,比如线性回归。但AB测试给我们因果证据,而家庭作业实验只告诉我们相关性。仅有数据和统计模型并不能让你估计因果效应,你需要假设。

从现在开始,我将使用有向无环图(也称为DAGs)来可视化统计关系。

图片

在有向无环图中,随机变量用节点表示,变量X将表示独立变量,即我们作为实验者可以改变的东西。我将这个变量称为暴露变量(Exposure。同样,Y将代表我们感兴趣的结果。这两个变量之间的边表示它们之间存在实际关系。箭头指示哪个变量影响另一个变量。如果X指向Y,它表示Y是X的函数。

为了简单起见,我们将说每条边代表两个变量之间存在线性关系。我收集了关于学生在家庭作业上花费的时间和他们得到的分数的数据。我想知道X和Y之间是否存在显著关系。换句话说,我想知道这里是否存在一条边。

图片

但我知道还有其他因素可以影响学生在家庭作业上可以花费的时间和他们将获得的分数。这些第三方因素被称为混杂因素(变量)。混杂因素是与暴露变量和结果变量都有关联的变量。我们将混杂因素表示为C,

图片

为了简单起见,我们将其设为二元变量。在这个例子中,混杂因素将是学生是否有朋友。有朋友可以负面影响在家庭作业上花费的时间,但同时,有朋友也可以帮助提高你的分数。这里具体原因不重要,我只是指出朋友的存在影响了暴露变量和结果变量。混杂因素引入了两个主要问题。

  • 第一个问题是当暴露变量和结果变量之间实际上没有关系时,由于混杂因素与它们两者都有关联,混杂因素的变化可以在它们之间创造关联的假象。假设有朋友减少了你的学习时间,但增加了你的分数。

因此,线性关系可能看起来像这样:

图片

在一个班级中,将会有一些有朋友和没有朋友的人混合在一起。我模拟了一些代码来模拟班级中50名学生的这种情况,一半没有朋友,另一半有朋友。

图片

你可以看到,学习时间与拥有朋友有负相关,而分数与拥有朋友有正相关。注意在模拟中,学习时间和分数之间没有关系。

因此,理论上,如果我试图分析它,很可能我不会得到一个统计上有意义的P值

P值是一种衡量得到当前数据的概率有多低的方法,如果这个概率非常低(通常小于5%),我们就认为这个结果是有统计意义的。

但是,如果我试图查看学习时间和分数之间的关系会发生什么。使用散点图绘制原始数据,并绘制线性回归的图。

图片

如果我不知道更多,我可能会被欺骗,认为这两个变量之间有一个小而负的关系。

  • 第二个问题来自于当学习时间和分数之间确实存在真实关系时。以同样的方式,混杂因素可以在两个不相关的变量之间创造关联的假象,混杂因素也可以污染实际存在的关系。

图片

如果我们看到结果的增加,是因为暴露变量的变化,还是因为混杂因素?这是同样的模拟,但有小的修改,

图片

分数实际上与学习时间有关系。如果你看看它们之间的关系,

图片

我们可以看到它们之间有一个更清晰的线性关系。如果我要分析这个关系,我会看到学习时间与分数有一个极其显著的关系。

虽然我通过回归分析得到的回归系数在表示变量之间关系的方向上是准确的,但是它的数值比实际的影响程度要小。

从这两个例子中可以清楚地看出,混杂因素的解决方案是将它们包含在分析中。在线性回归中,将混杂因素纳入模型会改变我们对暴露变量的回归系数的解释,

图片

它不仅仅是暴露变量单位增加导致的平均结果变化,系数还增加了在模型中保持其他变量不变的解释。这通常被表述为控制其他变量。控制混杂因素允许我们隔离暴露变量和结果变量之间的关系。

如果将所有可能的数据都纳入模型是解决问题的方法,那么有什么能阻止一个人收集尽可能多的数据,并将它们全部加入到模型中以分离出变量之间的关系呢?实际上,这有很多问题,但我在这里只关注一个问题。

将所有混杂因素纳入模型似乎是显而易见的解决方案,但这假设你一开始就知道所有的混杂因素。正如一位著名哲学家曾经说过的,

他们是已知的已知和已知的未知,但也有未知的未知,我们不知道我们不知道的事情。

未观察到的混杂因素

无论你收集多少数据,未观察到的混杂因素的幽灵总是会困扰你的分析。在统计学中,我们常常需要做出各种假设,但认为我们已经考虑到了所有可能影响结果的混杂因素是一个很大的假设。因此,任何严谨统计学家都不会轻易地在他们的研究中声称找到了因果关系,除非他们确信所用的数据是以一种能够准确捕捉这种关系的方式收集的。

我们已经看到,混杂因素总是会给研究带来问题,无论我们研究的变量之间是否真的存在关系。更严重的问题是,有些混杂因素可能是我们没有测量到的,甚至是我们完全不知道的。这种未观察到的混杂因素的问题已经被人们认识到很长时间了。例如,曾经有一段时间,肺癌是一种很少见的疾病。但当香烟变得普遍后,一些重要的研究开始显示吸烟和肺癌之间存在联系。然而,烟草行业很快聘请了一些重量级专家,试图说服大众认为这种联系只是一个巧合,而非因果关系。

图片

其中一位大佬是罗纳德·费舍尔,现代统计学的奠基人之一。即使面对很多证据都指向同一个结论,费舍尔还是试图找出统计结果中的漏洞。他指出的一个漏洞是未观察到的混杂因素,即某些可能影响结果但没有被考虑到的因素。在这个例子中,他提出有一种基因可能让人更倾向于吸烟,同时也增加了患肺癌的风险。然而,就像爱因斯坦在量子物理学上的观点最终被证明是错误的一样,费舍尔在吸烟与肺癌之间的关系上的观点也站在了历史的错误一边。

那么,我们如何解释我们没有观察到的东西,甚至可能不知道我们需要观察的东西?我们是否只能接受这种不完美的情况,即我们观察到的关联可能不完全准确或被混杂因素影响,而无法真正确定因果关系?

如果是这样,我们就无法将新药物带给需要它们的人。未观察到的混杂因素将永远是统计学家和分析师的问题,但知道它们的存在是弄清楚如何克服它们的第一步。这里,我们了解了混杂因素的问题,并看到它们如何妨碍统计学家试图估计因果效应。相关性不等于因果关系,但这不是全部。至少在统计学中,如果暴露变量导致结果的变化,那么它们也相关。因果关系意味着相关性,只是反过来不是。相反,相关性是一个可以进一步研究或用于预测的因果关系的提示。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多