分享

为了研究因果关系,原来科学家在这么多方向上都有尝试

 kevingiao 2020-07-21

在现代科学之前,不管东西方,都是从经验出发,通过归纳获得知识,然而这样的知识,受限于观测,无法产生突破性的成果,在这样的模式下,再探索一万年,也无法发明原子弹。而现代科学是先根据事实假设模型,再使用数据去验证模型。即先假设因果关系是存在的,再考察在具体场景下该怎么量化的衡量因果关系的强弱程度。

若非先有了有关因果关系的模型和预设,就会陷入实证主义。在观察中找出众多相关性不等于因果性的案例,然后总结出“相关性不等于因果性”,进而将对因果关系的命题悬而不论。但不论是在经济、医学、生态学等诸多领域,因果关系都对做出正确决策至关重要。

2. 理解因果关系的三个层次

因果关系这个我们常用的词语,在哲学层面,有三种不同的层次,第一是心理意义上的,指的是普通人,在日常生活中体会到的因果是怎样的,每个人感受到的因果关系,对其给出的解释都会有所不同,因此在这个层面探讨的因果关系,不具有内在的价值,只适用于讨论和提出因果关系的人本身的关系;第二是本体论上的,考虑的是因果关系仅仅只是虚构的概念,还是真实存在的,前者被称为唯名论(Nominalism),后者称为实在论(Realism),例如在牛顿之前,能感受到重力,但不认可重力是一个独立存在的本体,同样的关系也适用于因果关系,我们能否认为因果关系是真实存在的实体,是本体论探讨的问题;第三是认知论层面上的;探讨人类能够通过怎样的形式化的手段,量化的评估因果关系,这也是该文之后重点探讨的部分。本文尝试梳理近年来的相关研究,并对因果检测的方法,按照其方法论所依据的假设,分为四类,之后会逐个介绍。

新休谟式(neo humean)

X如果是Y的因,那么X的出现,应该是Y出现的充分必要条件,这就是新休谟式评估因果关系的方法。例如一个有木柴的房子,由于电线短路着火了,那么该怎么判断是木柴还是短路导致起火了?回答是看俩者那种情况是充分必要条件,电线短路的房子,不管屋里有的是木质家具,汽油,都会着火,因此可以判定是电线短路引起了火灾。

进一步扩展,如果俩者都不是绝对意义上的充分必要条件,那就看在常见的情景下,那种情况出现的时候,着火的概率大。在上述的例子中,装着木柴的房子,在除了短路的其他情况下,大部分都不着火(打雷除外),而将木柴换成其他的东西,则除了屋里放的都是桶装水,短路的时候都会着火。由此因果关系的可能性,变成了通过概率,进行量化的。

新休谟式下的因果关系,考虑是因果之间的“强力”是否能够在任何情况下,百分百的将俩者联系起来,即是否因总是和果一起出现,其假设构成因果关系是相互独立的变量,通过基于对时序数据的观察或因果模型得出非对称性的因果箭头,其中量化的不是因果关系的强弱,而是因果关系的可能性。之前提到的CCM模型(12年Science)属于该类的因果推断方法,参考

Science经典论文:如何检测复杂生态系统中的因果关系?
Detecting Causality in Complex Ecosystems [2012]George Sugihara, Robert May, Hao Ye, Chih-hao Hsieh, Ethan Deyle, Michael Fogarty, Stephan Munch查看详情页查看原文
另一个该类型的因果检测方法,来自今年11月27号的Science子刊提出的 PCMCI算法。该方法针对复杂系统中存在的大量非线性相互关系,有较长时间滞后的因果作用,以及只在部分情况下会出现的因果关系这些特点,平衡错误检出和未检出这俩种类型的错误,使得模型具有更强的检测出因果关系的能力。下图展示了该方法在全球气象数据中的应用,图中的每个圆圈代表的某个地区的气候系统,左边是相关性,图片下方的颜色深浅代表了因果性/相关性的强弱右边是PCMCI系统检测出的因果关系。对比可以得出因果性的箭头相比因果性要少的多,且因果性的强弱不等于因果性

图例:将PCMCI算法应用到全球气候数据中的因果关系检测WPAC CPAC EPAC ATL 分别代表西太平洋 中太平洋 东太平洋和大西洋

Detecting and quantifying causal associations in large nonlinear time series datasets [2019]Jakob Runge,Peer Nowack, Marlene Kretschmer,Seth Flaxman,Dino Sejdinovic查看详情页查看原文

反事实的(counter-factual)

如果x没有发生,那么是不是Y就一定不会发生,这样检测因果关系的方式,就是反事实型的。例如观察如果一群人停止吸烟之后,肺癌的发生率是否会降低,或者通过思想实验,来想象反事实的场景,从而进行因果推断。反事实的因果推断,是单一变量的分析,能够在复杂的情况下,定位出唯一的那个因。反事实推断的难点在于找到一个除了要考察的因素,其他因素都一样的“平行宇宙”。

反事实的因果推断的优点,在于其能够通过思想实验,来探讨因果关系。英国历史学家的《虚拟的历史》这本书,探讨如果历史上的大事件究竟是偶然还是必然,方法是假设在某个关键节点上,某件事并没有发生会怎样。中文屋的思想实验,则反驳了图灵测试中的因为电脑可以模拟人脑的某些特定功能,所以可以认为电脑具有人类的智能这一因果联系。

操控实验(Manipulation)

通过随机双盲实验(通过将人群随机分为两组,使两组在各种评价指标上都尽可能相似,而唯一不同的是待考察的因,进而根据俩者之间的区别判定因果关系,常用于药物效果的检测,Randomized Controlled Trial,简称RCT)来检测因果关系,是医学界最常用的。互联网公司做的AB测试,也是通过实验的手段,来判定不同的网页设计,文章标题和点击率之间的因果关系。

而历史中的某些很多突发事件,可以看成是天然的实验。例如孟德尔随机,该方法基于父母的DNA在形成生殖细胞并传给子女时会随机进行分配,从而形成天生的随机双盲实验,用来判断某个基因突变是否是导致特定的性状的因。

由于实验的参与者不一定会遵守实验人员的要求,因此也需要对此进行概率上的校正。实验在设计之前,就需要先画出潜在的因果关系,因此,这种方法的问题在于需要先有假设,且成本较高。

从随机双盲实验出发,可以得到当前最常用的因果检测方法,称为Rubin Causal Model(简称RCM)。该方法不是由实验人员去规定人员的分组,而是考察的是行为对个体的潜在结果(Potential Outcome),之后在假设个体之间不存在相互影响的个体处理稳定性假设下,求出有代表的抽样群体的平均因果作用(Average Causal Effect; ACE),同时对由于客观或者主观原因,没有按照预期行动的个体进行统计矫正,从而得出因果关系。

图例:RCM的基本计算公式,即Z到Y的因果关系由当Z发生时和没有发生时Y的平均因果作用的期望之差决定。

因果推断的另一个大佬,科普书《为什么》的作者Peral不喜欢Rubin的模型,他认为这没有他提出的casual diagram清晰,Peral的模型其实是和Rubin的模型是等价的,只是其具有不同的表达形式,类似量子力学的波动表示和矩阵表示。相关的内容在《为什么》这本书有详细的论述。

除此之外,如果从单因素的因果推断扩展到多个因素互做导致的因果推断,就需要使用充分病因模型(Sufficient-Cause Model),下图中,左边描述的是在A和U1或者B和U2出现时,会发生疾病Z,但无论ABU1还是U2,都不能称之为疾病Z的充分病因,而右图中的X能独立导致疾病Z的发生,因此X是Z的充分病因。

图例:Sufficient-Cause Model在复杂疾病病因上的应用,通过左图和右图的对比,说明判别充分因果所需的条件 来自
Causal Models for Investigating Complex Disease: I. A Primer [2018]Raban Iten, Tony Metger, Henrik Wilming, Lidia del Rio, Renato Renner查看详情页查看原文

机制研究(Mechanism)

最后一种判断因果关系的方法,是去看是否存在一条从原因到结果的影响机理。在这种模式下,判断吸烟是否会导致肺癌,是考察吸烟后,肺部的组织会发生怎样的变化,这样的变化又是如何导致癌细胞更容易出现的。通过找到香烟中致癌的尼古丁,在通过体外的实验,最终确定吸烟导致肺癌。机制研究在实践中,需要根据不同案例,独立的进行分析。在生物学中,确定因果也常用这种方式,例如找到了某种基因突变和某疾病发病率上升有关,由于时间,伦理等原因无法使用上面三种方法验证因果的情况下,就可以通过判断该突变在细胞层面导致的影响,来推断治病机理,或者在小鼠中找到类似的基因突变,再通过小鼠的操纵实验,先确定在小鼠中的因果性,之后通过类比(人和小鼠符合相近的生物学机制),最终推断对于人来说,该基因突变和某疾病的关系。

变量之间的复杂度变化,尤其是在给定A之后B的复杂度变化趋势,也能够从信息论的角度,指导对因果关系的判别。这也可以归类在机制研究的范畴。今年10月发在的一篇预印本中,研究者基于Kolmogorov复杂度研究因果关系。XY代表两个事件是否发生,K(x)代表x发生时的k式复杂度,如果对于两个变量X和Y, K(X) K(Y |X) < K(Y ) K(X|Y ),那么可以推出X到Y之间有因果关系。

Causal Inference via Conditional Kolmogorov Complexity using MDL Binning [2019]Daniel Goldfarb, Scott Evans查看详情页查看原文

要理解这个算法,可以想象考试时学霸小红给学渣小明递小抄,只有小红给了小抄,小明试卷上的复杂度K(X|Y )才会上升,而小明给小红递小抄K(Y |X)则没有效果,从而使上述的不等式成立,由此可以推出小明成绩好是由于小红递小抄的原因。

除此之外,今年的Nature Machine Intelligence有一篇在图网络模型上,用类似的复杂度来探讨因果性的文章。参考Nature机器智能:如何基于算法信息破解因果推断难题

压缩感知(compressed sensing)

压缩感知来自信号处理,又称压缩采样或稀疏采样,指通过采用更少的信息,来尽可能逼真的重现原始数据中的模式。经过压缩后,数据中的因果关系能够更容易的被找到。这背后的道理,可以想象你看一个长篇小说,看出谁是好人谁是坏人不容易,但若看漫画版或者缩写版,就很容易。下面的几篇论文,都是采用了压缩感知的方式,去寻找因果关系:

第一篇是根据基因与环境的互作数据,找到影响人身高的基因突变位点,该方法能够找到70%-100%的之前传统方法(全基因组关联分析)找到和身高相关的位点,通过改变L1正则项的权重(压缩的比例),还能够在寻找相关位点的的过程中,发现能找到的位点数目突然增多(相比现象)。
Applying compressed sensing to genome-wide association studies [2014]Shashaank Vattikuti, James J Lee, Christopher C Chang, Stephen D H Hsu,correspondin,Carson C Chowcorresponding查看详情页查看原文

之后的两篇,是根据实验组和控制组的基因调控数据,来推测基因调控网络中的因果关系的,一个是R中的相关包CausalR,一个是web端的服务MIIC。这俩种方法,都可以应用在多种非时间序列(只有一个数据点),无扰动的(non-perturbative)的数据类型,例如单细胞的基因表达数据,蛋白质相互作用的数据中。

CausalR: extracting mechanistic sense from genome scale data 查看原文

MIIC online: a web server to reconstruct causal or non-causal networks from non-perturbative data 查看原文

对于时间序列的数据,可以采用网络重构的方法,找到因果关系。在14年北师大狄增如的论文中,基于传染病的传播额度时间序列数据,使用相对较少数据,且在部分节点无法获取数据的条件下,用重构后的网络,去除数据中的噪声,找出传播源,而这也可以看成是找到了因果关系(传播源导致疾病爆发)。

Reconstructing propagation networks with natural diversity and identifying hidden sources 查看原文

找到因果关系却对于构建可解释的机器学习模型至关重要,要解释模型的决策,模型要能回答反事实的what if型问题,这需要机器能构建因果关系模型,最近的一篇Physics review上论文,通过两个神经网络,一个发现规律(用更少的神经元表征数据中的规律),一个解释规律(找到因果模型),在没有进行任何初始假设的前提下,根据太阳系行星的运动轨迹的数据,通过压缩感知,发现了地球绕着太阳转,从而也可以看成是对因果关系的判定。本文用到的编码器,解码器的架构,虽然在严谨来讲,并不是压缩感知,但由于其本质都找到对原数据的更小表征,从而使因果关系展现,因此勉强将其归为一类。

图例:左图,人类的思考方式,从观察到抽象的表征模型在基于模型,回答相关问题,右图,仿照人脑认知的神经网络架构,其中假设对观察的表征要尽可能的简洁 来源:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多