胡安宁：以机器学习方法助力因果推断

liyu_sun 2020-07-25

展开全文

当代社会科学量化方法的新发展有两个新趋势。其一，学者们从传统的对相关关系的分析（或者偏相关）逐渐转向更为精细的研究设计与分析过程，从而达成对因果关系的考察；其二，以算法为基础的机器学习技术开始被引入进来，对各种具体的社会科学议题进行分析。那么，当这两种趋势汇流，会对当下社会科学研究产生什么影响呢？为了回答这个问题，我们可以了解一下机器学习的方法与传统的社会科学研究技术有何不同。

　　简单来讲，机器学习方法的基本目的在于分类和预测。基于特定的数据信息，预测新的个体被归为A类或者B类的概率。然而，传统的社会科学研究的基本进路在于解释。这里可以举一个简单的例子，同样是拟合一个线性回归模型，传统的社会科学研究者将注意力放在这个模型中特定自变量的系数上（例如，将收入水平回归为教育成就和其他控制变量的函数，教育社会学者关心的是教育成就的回归系数的大小与显著性水平），而机器学习的目的则是看这个回归模型多大程度上可以预测因变量的取值（例如，各种变量组合起来如何预测收入）。这种关注点上的区分非常重要。因为我们在进行模型拟合时所需要特别关注的问题（例如共线性等）在机器学习的分析范式下便不再是问题。只要有助于提升预测的准确度，我们的模型拟合过程完全可以变得非常有弹性。正因为如此，很多时候，机器学习的算法所贡献的结果如黑箱一般，学者们知道黑箱的输入项，关心的是黑箱的输出项，但是中间内部是如何进行的，往往不是很在意（对于复杂的机器学习技术，这个黑箱是很难进一步了解的）。

　　那么，这种以预测和分类为基本特征的机器学习方法如何能够和当下的因果推论分析技术结合起来呢？这里，大致可以有三个结合点。

　　第一个结合点在于利用机器学习方法进行预测。比如，很多因果推论技术都是基于倾向值展开的。所谓倾向值，是指个体接纳自变量某个特定水平影响的概率。显然，这个概率需要研究者根据手头的数据进行估计，常用的是logistic回归方法。但是，除常规的广义线性模型之外，研究者完全可以采用诸如分类回归树、神经网络、支持向量机等机器学习方法进行倾向值的预测，因为这些方法本身的目的便是进行预测。目前，在这方面已经有一些建设性的研究。例如，如果自变量和混淆变量之间的关系呈现非常复杂的曲线关系（例如，混淆变量之间存在多重复杂的交互），那么，以算法为基础的机器学习技术便具有比较显著的优势。

　　第二个结合是利用机器学习方法进行分类。因果推断过程中经常会遇到分类问题。例如，在广义倾向值方法中，每个个体会有多个倾向值得分。传统的方法是两两进行匹配或者加权，但是这种方法最大的问题在于每次的两两分析针对的都是不同的分析对象。一个替代性方案是将各种预测出的倾向值得分置于一个多维空间下进行聚类。例如，如果自变量有三个取值（高中低），我们可以得到两个倾向值，分别针对的是低vs高和低vs中。那么，我们就可以以这两个倾向值为基础，将所有分析对象放到一个二维空间里。此时，所谓的倾向值匹配就被转换成为了一个聚类问题。在这两个倾向值上都比较近似的个体被归为一类，反而则属于不同的类别。显而易见的是，以分类为基本取向的大量非监督机器学习方法可以大显身手。

　　第三个结合在于利用机器学习的方法解决“因果推断的基本问题”。所谓“因果推断的基本问题”，是指我们在判断因果关系是否存在的时候，需要确定个体的反事实状态。例如，一个个体服用感冒药后症状减轻，但是这本身并不足以说明服药和症状之间的因果性。我们还需要假设另外一个反事实状态，即如果这个个体没有服用药物的话，他或者她的症状会如何。很明显，如果不吃药，症状依旧减轻，那么我们就会说，吃药并没有对症状有因果效果。在现有的统计学实践中，学者们有各种手段来估计个体的反事实状态。例如，采用匹配的方法，研究者可以将与被研究个体非常近似的个体找来作为被研究对象的匹配者，从而利用匹配者的表现来间接代表被研究对象的反事实状态。从这些实践不难看出，所谓的“因果推断的基本问题”，本质上是一个缺失值问题，而为了解决缺失值问题，我们就需要利用已有的资料进行某种意义上的“预测”，这恰恰是机器学习方法的强项所在。目前，已经有学者采用各种新的机器学习技术来学习一系列预测变量X与被解释变量Y之间的相互关系。基于此，将X的观测值（其中自变量的取值为一个反事实状态。如果观测值为1，那么就代入0值，反之亦然）代入模型，就能够计算出一个反事实状态的Y。通过这种对X与Y之间关系的学习，只需要简单的代入计算，就能够解决“因果推断的基本问题”。

　　综上所述，当机器学习技术被引入到因果关系的分析过程后，社会科学研究者便获得了更为丰富的分析工具和更为广泛的研究范围。然而，笔者希望特别指出的是，无论研究的技术如何复杂，社会科学研究者毕竟不是简单的数据分析人员，我们在进行数据分析的时候，只是将分析工具作为手段，其最终目的是希望能够回答一个实质的问题，提升人们对于社会状况的理解，最终带来理论上的进步。如果我们过于将关注点放在分析方法上而忽视了研究背后的实质价值，便有“本末倒置”之嫌。此外，除特定的方法论研究之外，如果所有社会科学研究者都将关心的重点置于方法而非问题上，便有可能丧失对于社会问题的敏感度，无法对当下甚至未来的社会现象提供富有洞见的解释，社会科学的学科价值便会逐渐消亡。

本文转载自中国社会科学报。