CVPR 2019 | 基于可解释性以及细粒度的可视化解释卷积神经网络

taotao_2016 2019-09-27

展开全文

作者丨张彪

学校丨北京交通大学硕士生

研究方向丨卷积神经网络的内部可视化（可解释性）

研究目的

卷积神经网络（CNN）已经被证明在许多视觉基准测试上产生了最先进的结果，尽管如此，CNN 的黑盒特性使得它在安全度要求高的领域未能被广泛应用。本文基于上述问题，其主要工作是探究网络内部的运行机制，以进行细粒度的解释网络模型。同时这篇文章的一个贡献是提出了一种新的对抗防御技术，它选择性地过滤优化中的梯度，使得解释性更为合理。

论文核心：模型预测的可解释性

基于扰动的视觉解释

扰动的视觉可解释性可以被定义为：

a) 保留解释：为了保存模型的原始输出，图像中必须保留的最小区域。

b) 删除解释：为了改变模型的原始输出，图像中必须删除的最小区域。

这里假定一个 CNN 可以根据给出的输入图像得到。给定一个输入图像 x，通过移除与目标类相关或不相关的像素点以得到解释图，由于无法在不替换信息的情况下删除信息，而且整个图像的生成过程是透明的，因此必须使用近似删除操作符，一种常见的做法是通过 Ф 操作来计算图像 x 和参考图像之间的加权平均：

其中

，参考图像 r 的常见选择是常数（如 0）、原始图像的模糊版本、高斯噪声或者生成模型的采样引用。本文使用 0 值图像作为参考图像。这个操作将会产生可视化解释，因为不相关的像素被置为 0 而没有其他像素结构来替代。操作过程如下图所示。相对于模糊版本的 r，0 值图像携带的信息少，将会导致模型预测结果具有较高的熵。

此外需要一个相似性度量矩阵

来度量对于目标类

，生成的解释图像的模型输出

和原始图像的模型输出

之间的一致性。如果解释图保存了目标类的输出，相似性应该小；如果解释图计划明显的降低目标类的概率，相似性应该大。典型的度量选择为把类别

作为硬目标的交叉熵或者目标类别

的负的 softmax 分数。

当 r=0 时，保留解释可以被定义为：

同时可以定义删除解释：

上图为对 VGG 使用 deletion / preservation game 进行可视化的结果。a) 为输入图像。b) 执行公式 (2)(3) 得到的结果，删除掩码中的颜色与图像中的颜色互补。c) 通过优化得到的可解释性结果。d) 在 deletion game 中真实颜色的互补模板。e) 强调 deletion game 的重要证据的说明。f) 平均掩码。

为了求解 (2) 和 (3)，使用随机梯度下降以及初始解释图

。在设个设置中，初始解释不包括任何类的证据，优化必须迭代地添加相关的或者不相关的，不支持类

的信息。本文的实验中，deletion game 产生了最细粒度的解释，与其他的实验相比，它通常需要最少的优化迭代，因为从

开始，相对较少的掩码值被更改。

防御对抗证据

由于对抗方法和上述基于优化的视觉解释方法在计算上的相似性，因此在上述实验中必须保证解释是基于图像中存在的真实证据，而不是优化过程中引入的虚假对抗性证据。对于本文的 generation/repression game 尤其如此，因为它们的优化从

开始，并迭代的增加信息。

如下图所示，在没有防御的情况下，可以把原始图像解释为 limousine，因此必须加上一些约束以防御对抗性证据，使其正确的解释为第二行所示情况。

本文提出一种新的对抗防御：CNN 中的一个神经元要想被解释图

激活，那么他必须能被原始图像 x 激活，这样就保证了解释图

是 x 的一个子集。在原来的优化中增加约束：

是网络中第 l 层的第 i 个神经元在非线性（如 ReLU、sigmoid）计算后的结果。为了求解满足 (4) 的优化问题，可以在网络中每个非线性计算之后增加一个额外的计算：

通过上述计算在反向传播梯度的过程中，产生的误差为：

上述的梯度裁剪法不增加超参数，在前向传递中保持模型的原始结构，同时支持细粒度解释。

对比实验

使用 deletion game，我们计算了 GoogLeNet 的平均解释掩码，并在上图中与最先进的方法进行了比较。我们的方法通过删除目标对象的重要像素来提供最细粒度的解释。尤其是解释 b)、f) 和 g) 较为粗糙，因此为了改变预测结果，它们显示的区域往往包含了不需要的删除的背景信息。

我们的方法 FGVis 突出显示大大部分像素形成了对象的边缘。这在其他方法中是看不到的。c) 和 d) 的解释与本文得到的结果最相似。然而，本文的掩码计算是为了直接产生解释图像，这些解释是可行的网络输入，因此是可验证的——删除突出显示的像素会改变网络的正确预测。这种说法对于用 c) 和 d) 方法计算的解释不一定成立。

总结

本文最大的创新是提出了一种在图像空间中生成细粒度视觉解释的方法，使得 CNN 网络模型的解释性更为可靠。本文进一步的把解释图细化到图像的像素级，这极大的促进了深度学习在类如自动驾驶、智慧医疗中的应用。

参考文献

[1] Fong R C , Vedaldi A . [IEEE 2017 IEEE International Conference on Computer Vision (ICCV) - Venice (2017.10.22-2017.10.29)] 2017 IEEE International Conference on Computer Vision (ICCV) - Interpretable Explanations of Black Boxes by Meaningful Perturbation[J]. 2017:3449-3457.