分享

模型黑盒|机器学习模型的“可解释性”研究

 天下小粮仓 2019-09-12

关注并标星索信达

每天打卡阅读

更快走进金融人工智能世界

━━━━━━

模型黑盒|机器学习模型的“可解释性”研究

我们是索信达集团旗下的金融人工智能实验室团队,微信公众号(datamargin)将不定期推送原创AI科学文章。我们的作品都是由实战经验丰富的AI科学技术人员或资深顾问精心准备,志在分享结合实际业务的理论应用和心得体会。

文 | 索 信 达 张 舵

自1943年心理学家McCulloch和数学家Pitts发表了神经元模型MP之后,神经网络历经了两次高潮和低谷,终于在2010年前后迎来了第三次高潮。在语音识别和图像识别领域,神经网络有着传统统计学模型不可替代的优势。

模型黑盒|机器学习模型的“可解释性”研究

1.关于模型的可解释性

在2012年的ImageNet竞赛中,Hinton教授与他的学生用多层的卷积神经网络成功地对包含一千类别的一百万张图片进行了训练,取得了分类错误率15%的好成绩,这个成绩比第二名高了近11个百分点,充分证明了多层神经网络识别效果的优越性。2016年横空出世的深度学习模型AlphaGo更是在围棋领域大放异彩,击败了人类最强选手。

但是神经网络是把双刃剑,在其高效、高正确率的背后,是模型的不可解释性,即“黑箱子”问题。神经网络应用于图片分类、围棋等领域尚可,但是当涉及到金融、医疗、无人驾驶等领域时,人们更加需要一个可信赖的模型。即从输入到输出的全部过程都是透明的、可解释的。

在银行业,人们有权询问为什么自己的信用评分比较低,而业务人员不能仅仅解释为因为您的模型评分低。而在医疗这一及负“责任”的领域,使用模型来诊断疾病更加需要可解释性。但讽刺的是,即使神经网络可解释性差,在乳腺癌切片的图像诊断上,机器学习模型可以达到89%的准确性,而训练过的病理学家只有73%的平均准确率。由此可见,我们既无法因为其可解释性差而放弃使用这一高效模型,亦不能完全依赖这个“黑箱子”来帮助人类做出重大决策。

模型黑盒|机器学习模型的“可解释性”研究

模型的可解释性,即判别过程是否可以转化成具备逻辑关系的规则,简单来说,就是为什么输入可以得到这样的输出。那么为什么神经网络模型不可解释呢?一个重要因素是神经网络模型的高复杂度。例如谷歌的图片分类神经网络ResNet,它包含152层网络及个参数,几乎不可能解释清楚每个层级的功能和每个参数的意义。

本文将围绕模型的可解释性来对比和介绍传统统计学模型和神经网络模型的特点。第二章介绍常用的统计学回归和分类模型,以及各模型中参数的意义和如何通过模型来解释输入与输出的关系。第三章介绍神经网络模型原理及其与统计学模型的关系。最后第四章介绍关于神经网络可解释性的发展与研究方向。

模型黑盒|机器学习模型的“可解释性”研究

2.传统统计学模型

本章将从线性回归、逻辑回归以及决策树模型的角度,阐述传统统计学模型在分析问题时对模型参数和输入输出关系的解释。

2.1、线性回归模型。在最直观的线性回归模型

模型黑盒|机器学习模型的“可解释性”研究

中,我们已知其参数含义:

模型黑盒|机器学习模型的“可解释性”研究

为直线斜率而

模型黑盒|机器学习模型的“可解释性”研究

为直线在

模型黑盒|机器学习模型的“可解释性”研究

轴的截距。当自变量

模型黑盒|机器学习模型的“可解释性”研究

时,响应变量

模型黑盒|机器学习模型的“可解释性”研究

每增加一个单位,

模型黑盒|机器学习模型的“可解释性”研究

增加个

模型黑盒|机器学习模型的“可解释性”研究

单位。类似地,在多元线性回归模型

模型黑盒|机器学习模型的“可解释性”研究

中,

模型黑盒|机器学习模型的“可解释性”研究

可理解为当其他所有变量保持不变时,

模型黑盒|机器学习模型的“可解释性”研究

每增加一个单位,

模型黑盒|机器学习模型的“可解释性”研究

增加个单位。

模型黑盒|机器学习模型的“可解释性”研究

2.2、逻辑回归模型:对于二分类的响应变量

模型黑盒|机器学习模型的“可解释性”研究

或0(对应YES or NO),

模型黑盒|机器学习模型的“可解释性”研究

关于解释变量

模型黑盒|机器学习模型的“可解释性”研究

的逻辑回归模型为:

模型黑盒|机器学习模型的“可解释性”研究

其中

模型黑盒|机器学习模型的“可解释性”研究

概率,而参数

模型黑盒|机器学习模型的“可解释性”研究

亦很容易理解,下面举例说明。

例如

模型黑盒|机器学习模型的“可解释性”研究

表示罹患肺癌而

模型黑盒|机器学习模型的“可解释性”研究

表示烟龄(月份),假设他们之间服从逻辑回归模型且

模型黑盒|机器学习模型的“可解释性”研究

时,

模型黑盒|机器学习模型的“可解释性”研究

表示不抽烟患肺癌的几率为0.15%。烟龄每增加一个月,优势比

模型黑盒|机器学习模型的“可解释性”研究

即患肺癌的概率比不患肺癌的概率增加了1.013倍。当

模型黑盒|机器学习模型的“可解释性”研究

,即抽烟500个月(40年左右),有一半的概率会患肺癌。对于任意给定的

模型黑盒|机器学习模型的“可解释性”研究

,通过上述模型我们可以测算出他的患癌概率

模型黑盒|机器学习模型的“可解释性”研究

模型黑盒|机器学习模型的“可解释性”研究

我们可以看到逻辑回归类似于线性回归,对于模型的每一个参数都可以给出合理解释,对于每一个输入

模型黑盒|机器学习模型的“可解释性”研究

都可以清楚解释为什么会得到输出

模型黑盒|机器学习模型的“可解释性”研究

。多元逻辑回归模型

模型黑盒|机器学习模型的“可解释性”研究

的参数意义类似于多元线性回归,即当其他变量不变时,

模型黑盒|机器学习模型的“可解释性”研究

模型黑盒|机器学习模型的“可解释性”研究

的影响。

2.3、决策树与随机森林模型。决策树是一种非参数的分类模型,利用样本节点对样本进行划分子集,会使得各子集中不同类别样本的混合程度最低,在各子集中对样本划分所需的信息(熵)最少。下例中通过对不同人群的年龄特征、资产特征、身份特征进行分类,最后可以划分为四个重叠度较小的人群,然后可以针对不同人群推荐相应的产品。

模型黑盒|机器学习模型的“可解释性”研究

我们可以看到,决策树简单直观,对于任何结果我们都可以追根溯源的解释为什么得到这个输出。当我们采用bootstrap的方式对样本有放回的进行抽样,并且针对每次的抽样训练多颗决策树共同决策时,就形成了随机森林模型,最终结果是采用Bagging的策略来获得,即多数投票机制。随机森林模型相对于决策树模型在高维数据中有更高的准确度,但是利用多颗决策树模型投票决策也使得他的可解释性大为降低。

模型黑盒|机器学习模型的“可解释性”研究

3.神经网络模型

3.1、神经网络模型简介。神经网络模型由许多的神经元模型组成,下图为单个神经元的结构:

模型黑盒|机器学习模型的“可解释性”研究

每一个输入都有一个权重配比,之后通过加权求和及非线性函数得到输出:

模型黑盒|机器学习模型的“可解释性”研究

这里的非线性函数通常为sigmoid(逻辑回归)函数。单个神经元可理解为一个结合了线性及非线性的简单数学模型。对于单个神经元,我们知道它的函数表达式,知道输入是通过什么规则得到的输出,所以单个神经元模型是可解释的。

神经网络结构如下图所示,最左边的是输入层,最右边的是输出层,中间是多个隐含层,隐含层和输出层的每个神经节点都是一个神经元模型。其中隐藏层的层数和每层的神经元数均不确定,往往通过实验得到最优的层数和神经节点数。更深的网络往往具有比浅层的网络更好的识别效率。这点也在ImageNet的多次大赛中得到了证实。从2012年起,每年获得ImageNet冠军的深度神经网络的层数逐年增加,2015年最好的方法GoogleNet是一个多达22层的神经网络。

模型黑盒|机器学习模型的“可解释性”研究

多层的神经网络可以大大提高模型的识别准确率,同时却降低了模型的可解释性。一个复杂度如上图的神经网络,它的输入/输出关系已经很难写出显性表达式,对于输入,我们并不可能知道为什么会得到这样的输出,模型基本上已经完全不可解释了。对于生产生活中的重大不可逆性决策,我们很难完全放心并依赖神经网络来做出决策。

3.2、神经网络模型与统计学模型关系。神经网络模型在本质上是多层统计学模型的叠加。例如下图中的单层感知机,当其激活函数为线性时

模型黑盒|机器学习模型的“可解释性”研究

,均为的线性组合,即多元线性回归。当激活函数为sigmoid时,模型变为多元逻辑回归。

模型黑盒|机器学习模型的“可解释性”研究

当我们加了隐藏层时,如果隐藏层的激活函数为非线性函数,则多层感知机实质上是非线性回归模型(如下图)。当神经网络的层数和神经元数逐渐增多时,我们的模型会越来越复杂,以至于很难找到一个显性表达式来完整描述模型和其输入输出关系,这是导致模型不可解释性的根本原因。

模型黑盒|机器学习模型的“可解释性”研究

对于传统的统计学模型,我们往往需要通过相关性分析、主成分分析(PCA)等变量选择方法,甄选出主要的特征变量,其次根据数据类型及问题选择诸如线性或者非线性模型来拟合数据,它是简单高效且紧致的(parsimonious)。而神经网络更像是一个万金油模型,尤其适用于多特征变量的高维数据,它无需变量选择,将所有特征变量输入模型通过反向传播算法(Backpropagation algorithm)计算出每个层级的参数,它是复杂且准确的。

模型黑盒|机器学习模型的“可解释性”研究

4.可解释神经网络模型(xNN)

我们不能因噎废食,由于神经网络优秀的预测能力,我们希望可以在其可解释性上有所突破。如下图,机器学习算法的预测精度总是和可解释性成反比,预测精度最高的深度学习算法的可解释性最差,而解释性最好的决策树算法的预测精度也最低。

模型黑盒|机器学习模型的“可解释性”研究

可解释神经网络模型(xNN) (Vaughan, 2018)是在简单的统计学模型和过于复杂的神经网络模型之间,选择了一个解释性和预测性都较好的加性指数模型(AIM),并通过改进AIM来近似神经网络模型,它有一个显性表达式,可以解释输入/输出关系,函数表达式如下:

其中,为均值,为特征变量的参数,为岭函数,为岭函数的权重。xNN模型的结构如下:

模型黑盒|机器学习模型的“可解释性”研究

xNN模型含有三个层级:(1)映射层(the projection layer)为特征变量的不同线性组合,即至。(2)子网络(Subnetwork)为中间的非线性函数至,它将输入1对1的转化成输出。(3)综合层(combination layer)将子网络的输出加权求和,输出最后结果。

在计算层面上,对于庞大的数据样本,我们依然可以使用梯度下降算法(Gradient Descent)来求解参数,并通过反向传播(Backpropagation)算法来进行优化。另外,当数据样本量不大时,由于我们模型的简洁性,我们还可以通过对损失函数(loss function)求偏导来直接计算每个参数,这就避免了神经网络参数计算中的梯度爆炸和梯度消失等问题。

张爱军教授等 (Zebin Y., 2019)在此基础上提出了基于网络结构约束的可解释性神经网络(SOSxNN)模型。通过三种网络结构化约束:a)稀疏可加子网络; b) 正交投影; c) 光滑函数;提升了模型的可解释性及预测精准度。其中条件(a)保证了子网络中岭函数的稀疏性,即使得模型尽量简洁、紧致,用最少的岭函数来构建模型。条件(b)为数据旋转提供了正交基,使得模型可辨识性增强。(c)使得岭函数更加光滑。简单的说,就是通过对(1)中的参数、及岭函数施加约束来构架出最紧致、函数性质最好的xNN模型。同时在 SOSxNN模型与其他机器学习模型,如多层感知机(MLP)、支持向量机(SVM)、 随机森林(Random Forests)、 Lasso 算法以及原始的 xNN 模型比较时,SOSxNN的预测精度被证明不低于这些模型。所以这是一种更简化、预测精度高的新型可解释神经网络模型。

xNN模型的结构和设计方式使其具有输入/输出的过程解释,打破了神经网络“黑箱子”的局限性。这项技术将机器学习技术应用于其他行业如医学、银行业提供了极大便利。它构建了一个可以被人们理解、信赖的模型。未来xNN模型必然在可解释性及预测准确度上有所提升,我们期待它在各个领域的广泛应用。

参考文献:

Vaughan, J., Sudjianto, A., Brahimi, E., Chen, J., and Nair, V. N. (2018). Explainable neural networks based on additive index models. The RMA Journal.

Zebin Y., Aijun Z., and Agus S.(2019). Enhancing Explainability of Neural Networksthrough Architecture Constraints. arXiv:1901.03838v1 [stat.ML].

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多