图 4:综述中讨论的几大话题总结。蓝框表示可信话题,红框表示主题公式,绿框表示因果层次。 三、因果视角理解可信机器学习 图灵奖得主 Judea Pearl 提出的因果推理框架关注如何从关联数据中得到稳健的因果关系,消除数据中混淆因子的影响,这正是可信机器学习的核心问题。从因果的角度,可以在数据生成过程中找到混淆因子的产生机制,从而使用因果推断的方法消除其影响。可信机器学习领域的诸多方法,与因果推理的原理不谋而合。不同机器学习任务的数据生成过程多种多样,作者经过调研,选择最普遍的一种展开讨论。假设数据是由两种潜在变量生成的,称其为 “因果变量” 和 “非因果变量”。这两种变量之间存在着非因果的关联;标签变量只由因果变量生成。下图左为数据生成过程的因果图。
图 5:左图为数据生成过程的因果图,右图显示对因果特征施加干预后的变化。由于外部的机制取代了生成 C 的机制,图中进入节点 C 的边被取消。 按照 Pearl 的因果层次论,因果有三个层级:关联,干预,反事实。作者沿着因果层次介绍重要的因果推理概念及技术,如随机受控实验,工具变量,逆概率加权,后门调整等。作者通过推导说明,如果在数据生成过程中对因果特征进行干预(如上图右所示),可以消除数据中混淆因子的影响,而数据增强和样本加权等方法可以间接实现这种干预。作者从因果的角度重新阐述了上文提到的可信机器学习方法。此外,近年来一些工作提出了明确基于因果推理的机器学习方法,在综述中也进行了介绍。