看穿机器学习的黑箱（III）

蜡笔小小兎 2017-02-22

展开全文

上周，老顾访问了UCLA的师兄朱松纯教授和吴英年教授，向他们学习计算机视觉的统计观点。早在二十多年前，以Mumford先生，朱松纯教授为代表的计算机视觉领域的哈佛学派就大力提倡将统计概率系统性地引进到视觉领域，用统计方法来解释和处理视觉领域的基本问题。目前，这一方法论早已在视觉领域深入人心，实际上也是机器学习的理论基础之一。最优传输理论描述了概率分布的几何，因此有助于我们研究视觉方面的机器学习。下面，我们开始撰写第三次讲稿。

概览

直观而言，视觉领域机器学习的统计观点如下：我们将所有可能的图像构成的空间设为，其中n是总的像素个数，每张图像视为全图像空间中的一个点。每个有意义的视觉“概念”（例如所有猫的图像）是全空间的一个可测子集，。固定一个概念，每张图片是否表达了这个概念就给出了一个概率分布。这样，视觉中的问题就被转化为概率统计的问题：如何表示概率分布，如何衡量概率分布间的距离，如何近似一个概率分布，如何生成满足特定概率分布的随机变量，如何根据概率分布进行统计推断，等等。

近年来，依随Internet技术的发展，人类已经积累了大量的视觉数据，这使得估计各种概率分布成为可能。同时，GPU技术的发展，使得各种统计计算方法的实现成为可能。因此，我们迎来了机器学习的科技大潮。但是，我们依然无法严密解释机器学习算法的有效性。

老顾倾向于认为，从基础理论角度而言，研究概率分布的一个强有力工具是最优传输理论（optimal mass transportation theory），这个理论着重揭示概率分布这一自然现象的内在规律，因此并不从属于某个学派，也不依赖于具体的算法。相反，这一理论会为算法的发展提供指导，同时真正合理有效的算法（例如机器学习算法），应该可以被传输理论来解释。

简而言之，传输理论给出了概率分布所构成空间的几何。给定一个黎曼流形，其上所有的概率分布构成一个无穷维的空间：Wasserstein空间，最优传输映射的传输代价给出了Wasserstein空间的一个黎曼度量。Wasserstein空间中的任意两点可以用Wasserstein距离来测量相近程度，自然也可以用测地线来插值概率分布。每个概率分布有熵，沿着测地线熵值的变化规律和黎曼流形的曲率有着本质的关系。这一几何事实在网络领域已经被应用，但在视觉领域，似乎还没有相关工作。

但在实际计算中，高维的最优传输映射，Wasserstein距离计算复杂。一个自然的想法是降维，将高维空间的概率分布投影到低维子空间，在低维空间上计算边际分布之间的变换。这有些象盲人摸象，每次得到局部信息，如果摸得充分，我们也可以恢复大象的整体信息。

回顾

在第一讲（看穿机器学习W-GAN的黑箱）中，我们给出了最优传输问题的凸几何解释：给定两个概率分布，存在唯一的最优传输映射，将初始概率分布变换成目标概率分布，，同时极小化传输代价，

这里被称为是两个概率分布之间的Wasserstein距离。同时，最优传输映射是某个凸函数的梯度映射，，这个函数满足蒙日-安培方程。我们的理论给出了一种几何变分方法来求解最优传输映射。

在第二讲（看穿机器学习的黑箱（II））中，我们澄清了这样的观点：相比于学习一个映射，学习一个概率分布要容易很多。满足的映射构成了一个无穷维的李群。

但是，在视觉问题中，通常图像全空间的维数非常高，计算难度较高。因此，我们可以放弃理论上的最优性，寻找计算更加简单有效，同时又和最优传输距离等价的算法。下面，我们就讨论这些更为实用的算法及其背后的理论。

直方图均衡化

图1. 直方图均衡化结果（histogram equalization）。

直方图均衡化是提高灰度图像对比度的常见算法。如图1所示，左侧输入图像的灰度分布在一个狭窄区域，朦胧昏暗；右侧是直方图均衡化的结果，清晰明亮，对比鲜明。我们设输入图像像素的灰度为一随机变量，其取值范围为单位区间 This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program. ，其概率测度为，直方图均衡化算法的核心就是求灰度空间（单位区间）到自身的一个映射 This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program. ，这一映射将变换成均匀分布。

实际上，传统的直方图均衡化就是一维的最优传送映射。假设我们有两个连续的概率分布，其对应的累积分布函数（CDF）是

那么直方图均衡化映射就是传输映射：。首先，我们可以证明这个映射满足两个条件：

，
单调递增。

另一方面，我们应用最优传输理论：存在一个凸函数，其梯度映射给出最优传输映射。由函数的凸性，我们得到最优传输映射也满足上面两条性质。更进一步，我们可以证明，在一维情形，满足上面两条的映射是唯一的。这意味着，一维直方图均衡化映射就是最优传输映射。

因此，一维的最优传输映射非常容易计算。下面，我们应用一维最优传输映射来近似高维最优传输映射。

迭代分布传输算法

有多种最优传输映射的近似算法。我们先讨论迭代分布传输算法（Iterative Distribution Transfer ）：给定单位向量，我们将整个空间投影到一维线性子空间上，投影映射为：

，

投影诱导的概率分布（边际概率分布）记为。在算法第k步，假设当前源空间的概率分布为；我们随机选取欧氏空间的一个标准正交基；为每一个基底向量构造一维的最优传输映射

，

由此构造映射，在标架下

，

其诱导的概率分布为。不停地重复这一步骤，对于足够大的n，复合映射：

This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program. ,

将初始概率分布映成了目标概率分布。

图2. 从拉东变换恢复的医学图像。

这一论断的证明需要用到拉东变换（Radon Transform）：给定 This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program. 中的一个概率分布，的Radon transform 是一族一维的概率测度，

换句话说，给定一个单位向量，它生成一条直线，我们将全空间向这条直线投影，得到边际概率分布。拉东变换的基本定理断言：如果两个概率测度的拉东变换相等，则两个概率测度相等。如图2所示，这一定理是医学图像上CT断层扫描技术的基本原理。

迭代算法如果最后达到一个平衡状态，则在任意一条过原点的直线上， This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program. 的边际概率分布等于的边际概率分布，因此由拉东变换原理收敛于， This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program. 。这样，我们将高维的传输映射转换成一维传输映射的复合，降低了计算难度。

投影Wasserstein距离梯度下降法

另外一种迭代算法想法比较类似。给定两个 This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program. 上定义的概率测度和，对于任意一个单位向量，我们考虑投影映射。投影映射诱导两个直线上的概率分布 This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program. 和，它们之间的最优传输映射记为。由此，每个点都沿着平移一个向量：

我们考察所有的单位向量，然后取平均

去一个步长参数 This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program. ，每个点平移到，相应的概率分布变为。重复以上步骤，我们可以证明所得的概率分布沿着距离收敛。这里距离是所谓的投影Wasserstein距离，其具体定义如下：

，

这里 This is the rendered form of the equation. You can not edit this directly. Right click will give you the option to save the image, and in most browsers you can drag the image onto your desktop or another program. 是Wasserstein距离。投影Wasserstein距离和Wasserstein距离诱导Wasserstein空间同样的拓扑，但是计算起来相对容易很多。

图3. 用于愚弄深度神经网的图像（A. Nguyen, J. Yosinski and J. Clune, Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images, CVPR2015.）

局限性和脆弱性

拉东变换将联合概率分布转换成向所有一维子空间投影所得的边际概率分布，从而实现了降维，简化了计算。但是，如果有一些子空间的边际分布缺失，我们无法精确恢复原来的联合分布。在视觉问题中，每个线性子空间被视为一个特征，向子空间投影，等价于特征提取。

深度神经网在解决视觉分类问题中表现出色，但是也非常容易被愚弄。如图3所示，人类可以轻易看出这些是非自然图像，在现实生活中不具备任何意义。但是深度神经网络非常自信地将它们归结为训练过的类别。如果，我们以欣赏现代抽象艺术的心态来研究这些图像，我们能够领会到深度神经网络分类结果的内在合理性：这些图像的确具有它们所对应类别的内在“神韵”。从纹理层次而言，它们和对应类别的纹理非常“神似”；从语义层面而言，这些图像则是无意义的和荒谬的。

我们可以给出一种解释：那就是投影子空间选得不够，因此即便是在这些子空间上边际概率分布相似，但是联合概率分布依然相差很大。深度神经网所得到的训练集是自然图像，图3这些图像都在自然图像空间之外，但是投影在所选择的子空间后，自然图像和非自然图像无法进行分别。由此，引发了深度神经网络脆弱性。

图4. 视网膜到大脑皮层的映射是保角变换。（A. Fazl, S. Grossberg and E. Mingolla, Visual Search， Eye Movements and Object Recognition)

讨论

人类的低级视觉在很大程度上依赖于统计特性，因此可以归结为对概率分布的处理和演算。人脑是否真的在计算最优传输映射、计算Wasserstein距离？在历史上，人类经常首先发现某些数学原理，然后又发现这些原理在生物器官上早已应用。例如，人类首先发现了傅里叶分解原理，然后发现人类耳蜗神经结构就是在对声音信号进行傅里叶分解；又如，人类首先发现了保角变换（共形变换），后来发现从视网膜到第一级的视觉中枢就是保角变换，如图4所示。这项工作曾经获得过诺贝尔奖。因此，如果若干年后，人们证实大脑的确在计算概率分布之间的距离，老顾也不会觉得意外。

因此，我们相信在一些视觉应用中，深度神经网络隐含地构建概率模型，我们可以直接用概率的工具，例如最优传输理论及其各种降维近似，直接取代神经网络，从而使得黑箱透明。