【原】Nat. Mach. Intell.|从局部解释到全局理解的树模型

DrugAI 2022-04-19

展开全文

今天介绍美国华盛顿大学保罗·艾伦计算机科学与工程学院的Su-In Lee团队在nature mechine intelligence 2020的论文，该论文提出了一种基于博弈论沙普利值的TreeExplainer方法，用于从局部到全局的树模型解释性研究。

背景

随机森林、决策树和梯度增强树等基于树的机器学习模型是目前比较流行的非线性预测模型，基于树的模型在金融、医药、生物、广告、供应链管理、制造、公共卫生等多个领域有着重要的应用。并且像是医药生物等领域对于模型除准确度外更关心其可解释性，也就是说研究人员希望得出预测模型是根据什么做出的判断，如何得到预测结果，目前对树模型预测结果的解释研究相对较少。华盛顿大学的Lee团队基于博弈论里的Shapely Value提出了TreeExplainer方法，展示了如何结合许多高质量的局部解释来理解全局模型，也就是从每一个样例的解释中去理解模型，从而得到模型做出预测的机理。

过往的预测模型是一个黑箱操作，尽管在树的全局解释方法方面存在丰富的历史，但对局部的解释关注甚少，使用TreeExplainer方法提升了模型的可解释性，可以清楚的知道模型做出判断的依据。

树模型的局部解释

对于当前树模型的局部解释方法，Lee团队提到了以下三种：

一是简单地报告决策路径，但这对于大多数模型来说是没有帮助的，特别是对多树集合模型。

二是使用为每个输入特征分配信用的启发式方法(由Saabas提出)，该启发式信用分配的行为目前还没有被仔细分析，然而该方法对基于树深度改变特征的影响存在严重的偏差，这种偏差会导致Saabas value值的不一致性。

三是应用模型不可知的各种各样方法需要为每个解释重复执行模型，由于模型不可知的方法依赖于对任意函数的事后建模，因此，可能会很慢并且会受到采样变化的影响。

Lee团队提出的TreeExplainer方法能够根据博弈论中期望的性质，方便地给出最优的局部解释。TreeExplainer在基于经典博弈论Shapley value值的模型不可知论工作的基础上，将理论与实际联系起来。TreeExplainer有三个显著的改进：

（1）准确性：基于精确Shapley value值，提出了多项式时间计算局部解释的算法，为局部解释提供了局部精度和一致性的理论保障。

（2）扩展性：扩展局部解释以直接捕获功能交互，为每个输入特征指定一个数字的局部解释虽然非常直观，但不能直接表示交互效果，文中基于泛化的Shapley value值提出测量局部交互效应的理论基础，对模型的行为提供了有价值的见解。

（3）整体性：结合许多局部解释整合解释模型的全局行为，保持原始模型的局部信度，产生模型整体行为的详细和准确的表示。

文中指出，在表格式数据集上，基于树的模型始终优于标准的深度模型，在表格式数据集中，特征是单独有意义的，并且缺乏强的多尺度时空结构，文中三个医疗数据集都是表格式的数据集，梯度增强树在三个数据集上都优于纯深度学习和线性回归模型。

相较于前三种列举出来的局部解释方法，使用TreeExplainer方法计算Shapley value在众多方面上提升了局部解释的效果。

公平的特征信用分配：相比于Saabas value方法，Shapley value对每一个特征公平地赋值，而不会受到其所在节点的深度的影响，从而保证了一致性。
无估计差异：TreeExplainer的精确解释消除了检查收敛性和在估计中接受一定数量噪声的额外负担。
强大的benchmark性能：设计了15种评判指标，并将这些指标应用于三种不同模型类型和三种数据集上的十种不同解释方法，TreeExplainer显示了一致性的性能提升。
与人类直觉判断相一致：基于Shaple value值的解释方法在所有测试场景中都符合人类的直觉。

TreeExplainer还扩展了局部解释来测量相互作用效果。虽然特征之间的相互作用效应可以反映在许多局部解释的全局模式中，但在每个局部解释中它们与主要效应的区别都消失了。

上图左边为全局模式，右边为Age与blood pressure的相互作用，可以看到某些相互作用在全局模式中已经消失了。

结合局部解释的全局理解

SHAP摘要图

以前的一些方法对于模型可解释性的探讨往往关注于使用简单的全局近似，寻找新的可解释特征或量化深度网络中特定内部节点的影响。Lee团队的TreeExplainer方法将数据集中的多个局部解释进行结合，从而达到对模型判断机理的全局理解，并能够：（1）避免不一致问题；（2）提高检测数据集中真实特征相关性的能力；（3）构建SHAP（Shapley additive explanation）摘要图，简洁地显示了特征效果、普遍性和方向，避免了把特征效果和普遍性混为一谈，从而揭示了罕见的高幅值效果。

上图是一个SHAP摘要图，它可以揭示特征影响效果的方向，比如上图右边部分显示出了男性比女性有着更高的死亡风险。

SHAP依赖图

SHAP依赖图比起传统的部分依赖图能够提供更丰富的信息，它展示了特征值是如何影响的预测值。

在死亡率模型中，SHAP依赖图再现了血压收缩压的标准风险拐点，同时也强调了血压对不同年龄人群死亡风险的影响是不同的。对于慢性肾脏疾病模型，依赖图再次清楚地揭示了收缩压的风险拐点。正确建模血压风险同时保持可解释性是至关重要的，因为血压控制在部分特定患慢性肾脏疾病人群中能够缓解病变并降低患心血管疾病的风险。

SHAP交互值

使用SHAP交互值，可以将一个特性对特定样本的影响分解为与其他特性的交互影响。