【原】法国学者：最优传输理论下对抗攻击可解释性探讨

我爱计算机视觉 2022-07-04 发布于江苏

展开全文

详细信息如下：

作者来自法国图卢兹第三大学与IRT Saint-Exupéry 研究所。

论文链接：https:///pdf/2206.06854.pdf

引言

该论文是关于对抗攻击理论性的文章，作者为对抗攻击提供了非常可靠的解释性。当前最优传输理论是深度学习理论中非常热门一个的方向，作者从最优传输理论的角度去分析对抗攻击的现象。当学习具有最优传输问题对偶损失的神经网络时，模型的梯度既是最优传输方案的方向，也是最接近对抗样本的方向。

沿着梯度移动到决策边界不再是一种对抗攻击，而是一种反事实的解释，即可以看作明确地从一个类传输到另一个类。通过对可解释度量的大量实验可以发现，应用于最优传输网络的简单显著性映射方法是一种可靠的解释，并且在无约束模型上优于最新的解释方法。

最优传输，鲁棒性和可解释性

令是关于最小化损失函数的最优传输方案。给定，令是关于的图像。因为是不确定的，可以令作为关于的最大点，进而有如下命题：

（传输方案方向）令是最小化损失函数的一个最优解。给定和，那么当，则有几乎处处成立。

这个没有正则化的命题对于对偶问题为真。它证明了对于大多数，表示传输方案的方向。

（决策边界）令和为两个有最小距离的可分离的分布，为最小化损失函数的一个最优解，其中。给定和，则有和

，其中是决策边界。

令和为两个有最小距离的可分离的分布，为最小化损失函数的一个最优解，其中,给定，则有

几乎处处成立，其中。

推论1表明，基于损失函数的分类器精确地得到对抗样本。在这种情况下，最佳对抗攻击是在梯度方向上，应用于最优传输神经网络模型的所有攻击，如攻击或攻击，都等效于攻击。

为了说明这些命题，作者学习了一个损失函数为的密集二元分类器来分离两个复杂分布。下图（a）显示了两种分布（蓝色和橙色雪花），学习的边界（红色虚线）。下图（b）和（c）显示了两个分布中的随机样本，其中定义在命题2中的段。

正如命题2所所描述的那样，该点正好落在决策边界上。此外，如命题1所述，每个片段提供了图像相对于运输方案的方向。

作者证明了使用最优传输神经网络时，对抗攻击在形式上是被已知的，并且易于计算。此外，作者还证明了对抗攻击是沿着传输映射进行的，因此对抗攻击不再是一种不可察觉的修改，而是对样本的一种可以理解的转换。作者将利用这些属性来显示提供了一种自然的反事实解释，它具有可证明的解释性属性。

给定类中样本的反事实解释是最接近的样本。由于通常无法直接获得和的全局信息，所以作者仅针对分类器来获取其局部信息。在这种情况下，反事实对应于命题2中定义的对抗攻击。对于经典的神经网络，这只能通过添加对抗噪声来实现，这不是一个有价值的解释。由于它只依赖于和，这种反事实解释的定义是局部的。相反，作为的最小值的传输方案描述了从类到的最优方案，所以传输方案是一种全局的反事实解释，并且是对的局部解释。