分享

耿直等:因果推断的统计方法(下)

 liyu_sun 2020-08-28

本次推送节选了数学科学学院耿直老师等的论文《因果推断的统计方法》的第六和第七部分。在第六部分中,作者回顾了学界在因果网络及结构分析这一问题上的研究成果,指出因果网络是多变量之间因果关系的重要形式化方法,被广泛应用于各领域的科学研究,包括基因调控、脑神经调控等生命科学领域;在第七部分中,作者指出了潜在结果模型和因果网络模型的重要意义和潜在缺陷,并展望了大数据时代统计学的未来。

本文原载于《中国科学·数学》2018年第12期。如果你对相关知识感兴趣,可以查找并阅读未节选的部分,或关注耿直老师本学期开设的通识教育核心课“普通统计学”。

Vol.870

通识联播


因果推断的统计方法

苗旺 | 北京大学光华管理学院

刘春辰 | NEC中国研究院

耿直 | 北京大学数学科学学院

因果网络及其结构学习

Judea Pearl 教授获得了2011年图灵奖,他的主要贡献是提出了因果网络图模型,开创了多因素之间的概率因果推理方法,在人工智能不确定性推理方面取得了突破性进展。其影响已超出人工智能和计算机科学领域,乃至影响了人类推理和科学哲学的范畴。目前因果网络方法已经被广泛应用于众多的科学领域。Pearl 基于贝叶斯网络提出了外部干预的概念,用外部干预的概念对因果关系给出了一种形式化方法,建立了因果网络模型 (Pearl, 1988, 2009b)。因果网络描述多个变量之间相互的因果关系,网络图中每个节点表示一个变量,节点之间的有向箭头表示由原因到结果的因果关系,或者变量之间的数据生成过程。突破了传统统计推断从数据发现相关关系的禁锢,开创了从数据中发现因果关系及数据产生机制的方法论,为探索从数据中发现蕴藏在数据中的“为什么”建立了基础。Lauritzen and Spiegelhalter (1988) 提出了概率图模型的统计推断和计算方法及其在专家系统中的应用,建立了大规模因果网络和贝叶斯推断的基础,取得了专家系统和人工智能中不确定性概率推理的突破性进展。

图为Judea Pearl

尽管控制随机试验是发现因果关系的首选方法,但在实际场景中,控制试验由于道德、成本、技术等多方面因素,往往是不可行的。为此,众多学者致力于从纯观测数据中发现因果关系。研究表明,在特定假设下,随机变量间的部分或完整因果关系可以从观测数据中还原 (Pearl, 2009b)。

Pearl (1988, 2009b); Spiegelhalter et al. (2011) 和 Spirtes et al. (2000) 详细描述了因果网络图,探讨由观察性研究得到的数据进行因果推断的统计方法。一个图G  =  (V, E)由节点集合V  =  {X1, X2, . . . , Xn}和一个边集合E组成.  两个节点之间的一条无向边记为(Xi, Xj),  一条由Xi指向Xj的有向边记为< Xi, Xj >。如果所有的边都是无向边,称该图是一个无向图. 如果所有的边都是有向边,称该图是一个有向图。一条从节点Xi到另一节点Xj的路径p是由从Xi开始到Xj为止、依次有边相连、中间无重复节点的节点和边组成,而不管边的方向。如果该路径上所有边的方向都是朝向Xj,则称该路径是从Xi到Xj的有向路径。一条从Xi到Xi的有向路径称为一个有向环。一个没有环的有向图称为有向无环图(directed acyclic graph,缩写为DAG)。

令每个节点表示一个随机变量。令pai表示变量Xi的父节点变量的集合。每个节点的取值由它的父节点的函数确定Xi = fi(pai, εi), 其中εi为不影响网络内部其它节点{Xj, ∀j ̸= i}的残余变量。一般地,给定一个有向无环图,随机向量(X1, . . . , Xn)的联合概率分布为:


其中pr(·|·)表示条件概率。图3 给出了一个因果网络的例子,X4的父节点集合为{X2, X3},  每个变量由它的父节点的函数确定:

X1  = f1(ε1),

X2 = f2(X1, ε2),

X3 = f3(X1, ε3),

X4 = f4(X2, X3, ε4),

X5 = f5(X4, ε5).

随机向量(X1, . . . , X5)的联合概率分布为:

pr(x1, x2, x3, x4, x5) = pr(x1)pr(x2|x1)pr(x3|x1)pr(x4|x2, x3)pr(x5|x4).

对某个变量的外部干预Xj = x′j 表示将Xj = fj(paj, εj)换成Xj = x′j ,意味着Xj不再受其父节点paj和εj的影响,而强制设定其值为x′j . 该干预后的联合分布变为:

其中δ(·)  为示性函数。特别需要注意的是,prxj′  (xi)表示在外部干预Xj  =  x′j 下Xi的分布,它不同于条件分布pr(xi|x′j )。干预后分布prxj′  (xi  =  1)表示强制所有的人(包括吸烟的人)都不吸烟(Xj = x′j 表示不吸烟)的干预下患肺癌Xi = 1的概率,而条件分布pr(xi = 1 | x′j )表示不吸烟人群中(Xj = x′j )患肺癌Xi = 1的概率。当存在未观测的混杂因素(Xk,其影响Xi和Xj)时,干预后分布prx′  (xi) 是不可识别的。这是因为强制吸烟的人不吸烟时,其患肺癌的概率是不可观测的,可能不同于不吸烟人群的患病概率pr(xi|x′j ).

在因果网络的框架下,研究两类问题:其一是因果作用的可识别性,另一个是因果网络的学习。识别因果作用的目的与潜在结果的因果模型的目的是一致的,即,探讨判断混杂因素的准则和研究因果作用的可识别性(Greenland and Pearl, 2011).

关于因果作用的问题,利用因果网络可以得到比潜在结果模型更精准的判断混杂因素的准则(Greenland et al., 1999a)。 例如,一个变量与处理变量和结果变量相关时,基于潜在结果模型不能判断该变量不是混杂因素;但是利用因果网络,如果它不是处理变量和结果变量的共同原因,那么可以判断它不是混杂因素,如图4 中的Z和F。Greenland et al. (1999a) 和Greenland and Pearl(2011) 描述了根据因果网络判断哪些变量是混杂因素,哪些变量不是混杂因素的方法.


Pearl (1995) 基于因果网络模型提出了前门准则的可识别方法,传统的流行病学没能意识到这个新奇的结果。基于因果网络模型方法的弱点是,在实际中很难得到一个已知的因果网络。潜在结果模型的方法不需要一个已知的因果网络,但是需要可忽略处理分配假定或者工具变量假定(Greenland et al., 1999b)。 Geng and Li (2002) 将因果网络与潜在结果模型结合,给出了判断混杂因素的综合准则,不要求已知一个完整的因果网络,但需要一个充分大的集合其包含处理变量的父节点集合。

因果网络学习又分为因果网络的参数学习和结构学习。参数学习是在因果网络结构已知的条件下利用数据估计参数。根据因果网络的联合分布,采用最大似然估计或贝叶斯方法估计条件概率pr(xi|pai)。在正态随机变量的情况,估计给定父节点变量集合pai下Xi的条件正态分布的参数。因果网络结构学习有两类方法:基于评分的搜索方法和基于条件独立检验的方法。 上世纪90年代伊始,条件独立性检验的方法已被用于因果网络结构的发现。Verma and Pearl (1990) 提出了IC算法,首先针对任意两个节点Xi和Xj穷尽搜索是否存在分离集Sij 使得条件独立Xi  Xj|Sij成立;如果存在这样的Sij, 则删去这两个节点间的边。然后利用两个不相邻的节点Xi和Xj, 如果它们的公共邻居Xk不包含在它们的分离集Sij 中,则确定一个V-结构(Xi → Xk ← Xj)。最后确定其他边的方向,避免出现新的V-结构和有向环。在IC算法中穷尽搜素分离集Sij的计算复杂度很高,并且对于大的分离集Sij, 其条件独立检验功效低。为了改善IC算法的效率,Spirtes and Glymour (1991)提出了PC算法。  PC算法仍是将完全图作为初始骨架图,然后从空集开始逐步增大分离集的大小,不断删除骨架图中的边,使得每个结点的邻居数不断减少,寻找两个节点的分离集限定在它们的邻居集的子集范围内,目的是避免高维变量的条件独立检验。后续的研究对PC算法不断改进,克服了其在稳定性、潜在混杂变量处理、非线性因果关系处理、混合变量处理等方面的不足。Colombo and Maathuis (2014) 提出了Stable PC算法,通过对骨架学习及因果定向规则的修改,降低了PC 算法对随机变量的序列关系的敏感度,使其在高维变量的场景中仍能获得稳定的学习效果。  FCI/RFCI算法及其变体被提出 (Spirtes et al., 2000, 1999), 用以在未观测混杂变量和样本选择偏差存在的情况下学习因果结构,这些方法在PC 邻接搜索的基础上,用额外的条件独立性检验以处理潜在混杂变量。Zhang et al. (2012) 提出基于核的独立性检验方式并给出条件独立零假设下的渐近分布构造方法,以支持非线性假设下的因果关系发现. Copula PC (Cui et al., 2016) 将PC算法中基于相关矩阵的独立性检验更新为基于高斯copula 相关矩阵的独立性检验,以支持混合变量(连续和离散变量并存)下的因果结构学习。

针对大规模网络和多个不完全数据库,Xie et al. (2006) 提出网络结构的分解学习算法。在有变量间条件独立的先验知识情况下可以不必同时观测所有的变量,利用多个不完全变量的数据库,首先各自学习局部网络,然后合并为一个完整的大网络。Xie and Geng (2008) 提出了网络结构的递归学习算法,将一个大网络结构学习分解为两个局部小网络的结构学习,然后递归地将每个局部网络的结构学习再分解为更小网络的结构学习。Liu et al. (2010) 提出了最小d-分离树的分解学习算法。Xu et al. (2011) 提出了寻找最小分离集从道德图学习因果网络的算法。采用分治方法实现高维因果关系,Cai et al. (2013) 提出了一种基于Causal Cut Set 的变量集分割方法,通过递归地将高维问题分解为ANM、LiNGAM等模型可以求解小规模问题,实现了高维问题的求解。针对Causal Cut Set 的计算代价大和分割过程导致误差累积等问题,Cai et al. (2018b) 提出了一种随机子问题分割、全局优化的因果序推断和冗余剔除策略的高效因果机制发现算法。

利用观测数据仅能学到一组具有相同条件独立性的网络结构,这组网络有相同的边和相同的V-结构,但是它们的某些边可能有不同的方向,这样一组网络图称为Markov等价类。为了从等价类中确定哪一个网络是真网络,需要额外的先验知识或干预数据。He and Geng (2008) 提出了最优干预设计的主动学习方法,希望干预最少的变量能确定所有边的方向。Hauser and  Bu¨hlmann(2012) 探讨利用干预试验学习 Markov 等价类的算法。

当目的是为了寻找和确定某个给定的目标变量的局部因果关系,发现它的原因是什么和结果是什么,或者目的是做干预决策时,我们只需利用数据发现该目标变量的局部因果关系,没必要学习整个网络的结构。 Tsamardinos et al. (2006) 提出了学习局部网络结构的方法,寻找目标变量Y 的父亲-儿子-子孙(Parents-Children-Descendants, PCD)和父子(PC) 算法,但是他们的算法不能确定哪个是父节点,哪个是子节点。Wang et al. (2014) 提出逐步构建目标变量Y的局部网络的方法,称为MB-by-MB 算法。该算法以目标变量Y为中心,逐步向外扩散地构建局部网络结构。首先寻找目标变量Y 的Markov 边界M B(Y), 构建M B(Y) 的局部网络结构;然后再寻找MB(Y)中每个Xi的M B(Xi), 构建M B(Xi)  的局部网络结构;重复这个过程直至能够区别谁是Y的原因,谁是Y的结果为止。

另一类因果网络结构学习方法是根据评分选择最佳网络. 为每个网络赋一个评分(如后验概率、BIC、AIC等),搜索最佳评分的有向无环图,常采用贪心法等启发式搜索方法。Heckerman (2008) 给出贝叶斯方法学习因果网络的方法。在整个网络空间搜索最佳评分的网络是一个非常困难的问题。此类方法通过定义可分解的评分准则来评价数据和网络的拟合度,并以该准则指导最优网络结构的搜索。当定义的评分准则满足评分等价性(score equivalence) (Heckerman et al., 1995),即等价类中的DAG拥有相同的分数时,该准则可用于指导因果结构的学习。Chickering (2002) 提出两阶段的贪婪等价搜索算法(GES)是该类型的一个代表性方法,它基于观测数据,从DAG空间中搜索获取真实分布的完备图(perfect map), 但该方法尚无法处理未观测混杂变量、样本选择偏差等问题。很多学者探索了随机模拟的搜索算法. Ji et al. (2011) 提出了一种将约束满足、蚁群优化和模拟退火策略相结合的混合算法。该算法首先利用阈值自调整的条件测试来动态地压缩搜索空间以加速搜索过程,然后利用互信息修正了蚁群算法的启发函数以保证学习的求解质量,最后通过引入模拟退火的优化调节机制改进了算法的优化效率。Ji et al. (2013) 提出了一种基于蜂群觅食原理的因果网络结构学习新算法。该算法通过模拟蜜蜂采集花蜜过程中雇佣蜂、观察蜂和侦察蜂三种蜂的不同觅食行为,实现了解的局部开采和全局探测,能够在较短时间内获得全局满意解。Yang et al. (2016) 提出了一种基于菌群觅食原理的因果网络结构学习新算法。该算法模拟菌群觅食过程中的趋向、复制、迁徙三种操作,实现了寻优过程中解的开采和探测的平衡,能有效地完成最优解的评分搜索。Ji et al. (2017) 探索了基于群智能搜索算法,首先从随机搜索的角度分析并概括了蚁群、蜂群、菌群三种不同搜索机理中共同的特征和不同的寻优机制,然后用丰富的试验验证了这些不同机制各自的作用,并对比了不同算法在有噪声数据情况下的鲁棒性。Ji et al. (2016) 将基于群智能搜索的因果网络结构学习算法应用于脑科学中,提出一种基于人工免疫算法的脑效应连接网络学习方法。

将前面的条件独立检验算法和评分算法结合,Tsamardinos et al. (2006) 提出了混合学习方法(MMHC) 进行网络结构挖掘。首先运用基于(条件)独立性检验的局部结构搜索算法确定因果网络的骨架,继而利用基于贝叶斯评分准则的贪婪爬山搜索算法确定骨架中变量间的因果方向。该方法能较好的校正基于统计独立性的方法在定向上的错误。H2PC 算法 Gasse et al. (2014) 也采用了类似的两阶段混合结构学习思想。MMHC及H2PC方法均支持大规模随机变量上的因果结构学习。

将因果网络进行参数化,利用结构方程模型(SEM)描述变量间的因果关系。将结果变量Y 与直接原因变量集合X和噪音项ε用结构方程Y  = f (X, ε)联系起来,其中X和ε相互独立。因果方向的可判定问题是SEM研究中的一项重要课题。Hoyer et al. (2009); Shimizu et al. (2006) 的研究表明, 当噪音项服从非高斯分布或者函数方程满足非线性约束时,由于原因变量和噪音项间的独立性仅在正确的因果方向下成立,使得变量间的因果方向是可判定的。LiNGAM (Shimizu et al., 2006) 是该研究方向的一个代表性模型,它建模连续随机变量间的因果关系,假设变量间线性关联且噪音项服从非高斯分布。独立主成分分析技术(ICA)被用于LiNGAM 的模型选择,由于超参数选择问题,ICA 算法常常陷入局部最优而无法收敛于最优解。为此,DirectLiNGAM 算法 (Shimizu et al.,2011) 利用外部变量及非外部变量在其上的回归残差间的独立性信息求解变量间的因果结构,被证明可以收敛于最优。后续研究针对LiNGAM 在诸多方向上进行了扩展。例如,Hoyer et al. (2008) 将潜在混杂变量及其对观测变量的影响进行建模,并利用过完备ICA 算法实现模型选择. Henao and Winther (2011) 提出一种贝叶斯方法求解带潜在混杂因子的LiNGAM模型。Lacerda et al. (2008) 和Hyvarinen and Smith (2013) 将LiNGAM进行了有环化的扩展,并给出了模型可判定的充分条件。Zhang and Hyvarinen (2009) 扩展LiNGAM以处理随机变量间的非线性因果关系,并证明除个别非线性函数及数据分布外,其模型是可判定的。Zhang et al. (2010) 对这些非线性模型进行扩展以处理潜在混杂变量。噪音可加模型(additive noise model, ANM)将因果关系建模为Y = f (X) + ε, Hoyer et al. (2009) 的研究表明,当函数满足非线性约束时,该模型是可判定模型. Hoyer et al.(2009) 利用目标变量与源变量在其上非线性回归的残差之间的独立性信息判定因果方向。Bu¨hlmann et al. (2013) 提出基于贝叶斯评分准则的非线性ANM的模型选择算法。Mooij et al. (2011) 致力于有环ANM 的模型选择等。针对似然函数方法存在的马尔科夫等价类问题,Cai et al. (2018a) 通过将结构方程模型引入到似然函数计算框架中,实现了似然函数方法和结构方程模型的有效结合较好地解决了马尔科夫等价类问题。Fei and Yang (2017) 提出了一种结合探索性因子分析和路径分析方法推断存在隐变量情况下的因果关系,利用因子分析得到相对各自独立的隐变量,采用路径分析(PA)算法得到观测变量之间的因果方向与因果关系,扩展了隐变量以及它们与观察变量之间的线性因果关系。

图为Ronald Aylmer Fisher

还有一些研究将独立性检验和逻辑推理结合,以解决PC类算法的稳健性问题(不正确的独立性检验会导致连锁的定向错误)。该类方法的另一个优势在于易集成多种类别的先验知识,同时易于处理未观测的混杂因素及数据选择偏差。Claassen and Heskes (2011) 将变量间的(条件)独立信息转换成逻辑命题,并给出了相应的逻辑推理算法以识别部分祖先图(PAG)。Hyttinen et al.(2013) 提出使用一阶逻辑编码随机变量间的条件独立关系,从而将因果关系发现问题转换成骨干变量求解问题,并利用SAT处理器识别因果结构。Borboudakis and Tsamardinos (2016) 的工作更近一步定义了更多的逻辑项及规则对控制试验数据、非同源数据等信息进行编码及推理,实现了更泛化的因果结构学习。

针对高维稀疏图模型,He et al. (2013) 构造了图空间上的可逆马尔科夫链,实现了高维稀疏图的高效随机抽样方法,可有效地应用于图模型结构学习的贝叶斯方法。He et al. (2015) 通过一种递归算法解决了等价类中图模型结构数量的计数问题,应用于高维稀疏图模型等价类,快速计数一个等价类中包含的图模型个数,对于分析图模型方法的复杂性和因果推断具有重要的作用。将因果网络结构学习应用于大数据中,Yue et al. (2015) 针对数据的海量、分布式和动态变化特征,扩展了用于因果网络学习的评分搜索算法,提出了基于MapReduce 编程模型的因果网络并行学习和增量维护方法。Yue et al. (2017) 从海量的社交用户行为交互中构建描述用户之间依赖关系的因果网络, 以及基于MapReduce 编程模型的大规模因果网络概率推理算法,为社交网应用中关联分析和相似搜索提供支撑技术。Cai et al. (2017a) 引入因果度量挖掘药物相互作用导致的不良反应机制。Cai et al. (2017b) 通过基于因果机制的用户行为序列分析,发现了同质、反向影响等社交网络行为的隐藏原因。

近年来,将在因果网络的因果作用可识别性问题与因果网络的学习问题结合,很多学者探讨数据驱动的因果推断方法。这类方法首先利用数据学习因果网络的Markov等价类,然后识别等价类中每个网络的因果作用,最后得到所有可能的因果作用的集合或者上下界。对于高维因果网络,一个Markov等价类可能包括大量的Markov性等价的因果网络,枚举所有可能的因果网络是一个困难的问题,而且不同的因果网络可能有相等的因果作用。给定表示Markov等价类的本质图,Maathuis et al. (2009) 提出了从本质图中枚举所有可能的因果作用的局部算法,得到所有因果作用的集合和上下界。针对多个干预的情况,Nandy et al. (2017) 进一步提出了估计多处理对结果变量的联合因果作用的上下界的局部算法. 针对线性结构方程模型,Malinsky and Spirtes (2017) 提出了采用数据学习因果网络的等价类,允许潜在混杂因素的存在,然后针对等价类中每个模型根据所有可能的因果作用的界。H¨aggstr¨om (2018) 提出了数据驱动的混杂因素选择,给出了利用数据学习因果网络结构与因果作用估计相结合的方法。

因果网络是多变量之间因果关系的重要形式化方法,被广泛应用于各领域的科学研究,包括基因调控、脑神经调控等生命科学领域。 但是,因果网络的结构学习需要相当大的样本和有关忠实性的假定;当存在有隐变量、因果反馈等情况,仍有待于方法论上的突破。从观测数据学习得到因果网络的Markov等价类仍然包含众多可能的因果网络,如何利用专业背景知识和合理假定更细致地发现变量之间的因果关系仍有待于研究。另外,采用因果网络形式化地描述多变量之间的因果关系和外部干预也有待于深入探讨。

结束语

研究因果关系一直是人类探索世界的主题。挖掘因果关系的科学方法,对各个科学研究领域都有普适性。现今的生命科学,信息科学,社会科学,经济金融等领域都迫切需要这些方法。在哲学史上,远至亚里士多德的“四因说”,近至“穆勒五法”,“休谟问题”,都对因果概念做了深入透彻的论述。关于因果关系的哲学思想发展史,见 Beebee et al. (2009)。但是,这些学说对现代科学研究中发现因果关系的方法上的指导作用很有限。在近一个世纪,随着统计学的快速发展,因果推断的统计方法在诸多科学领域如流行病学、生物医药、社会学和经济学取得了辉煌成就,并在其他学科中展现出巨大潜力。 本文介绍的潜在结果模型和因果网络模型,即是在评价因果作用和发现因果关系中最成熟和应用最广泛的统计方法。这些方法的成功,得益于定量化数据记录对各个学科的普适性,以及统计学以数据为分析对象的特点。

不可否认,因果推断必需的一些基本假定在实际中无法用数据完全验证,比如,可忽略性假定,SUTVA  假定;这些假定是否成立需要根据专业知识或者先验知识来判断.在实际研究中做因果推断,要充分理解这些假定的含义才能根据专业知识判断。为了得到可靠的因果推论, 需要考查不同的假定对因果推断的影响,进行有关假定的敏感性分析 (sensitivity analysis),见Rosenbaum (2002)。本文未涉及的因果推断中其他重要的问题,例如,中介分析 (Shan and Guo, 2011; VanderWeele, 2015), 主分层作用 (Frangakis and Rubin, 2002; Shan et al., 2015),不依从性问题 (Angrist et al., 1996; Chen et al., 2009),干涉问题 (Hudgens and Halloran, 2008; Liu and Hudgens,2014) 等,在生物医学、流行病学、社会经济学中都有重要作用。

观察性研究中的混杂因素和不依从性的问题,在现代大数据研究中不可避免,也揭示了大数据研究潜在的缺陷;工具变量和阴性对照变量方法则启发我们在研究设计和数据收集过程中就应记录一些辅助数据,而不应只关注目标变量。替代指标悖论则揭示了利用多个统计结论进行联合推理的困难. Jiang et al. (2015) 探讨了密度关联性、分布关联性、期望关联性和线性相关性等关联度量的可传递性. 替代指标悖论启发我们,从大数据的多源数据库得到的众多统计结论存在传递性的问题。 因此,对于多源数据库需要先融合数据,然后再对融合的数据进行分析;而不应当从孤立的数据库得到各自的结论,然后用这些结论进行推理。

图为K. Pearson

在大数据时代,数据的收集和分析在各个学科和研究领域都变得越来越重要,而根据数据推断因果作用和寻找因果关系将成为推动各个学科和领域发展的重要动力,因果推断方法必将大展神通. 如果把K. Pearson 和R. A. Fisher时代比作为统计学的牛顿时代,我们期待着大数据时代将会出现统计学的爱因斯坦式人物。

文馨 编辑  /  郑林 校对

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多