什么是Wasserstein GAN？

昵称11935121 2018-03-19

展开全文

GAN，亦称为生成对抗网络（Generative Adversarial Network），它是生成模型中的一类——即一种能够通过观察来自特定分布的训练数据，进而尝试对这个分布进行预测的模型。这个模型新获取的样本「看起来」会和最初的训练样本类似。有些生成模型只会去学习训练数据分布的参数，有一些模型则只能从训练数据分布中提取样本，而有一些则可以二者兼顾。

目前，已经存在了很多种类的生成模型：全可见信念网络（Fully Visible Belief Network）、变分自编码器（Variational Autoencoder）、玻尔兹曼机（Boltzmann Machine），生成随机网络（Generative Stochastic Network），像素递归神经网络（PixelRNN）等等。以上的模型都因其所表征或接近的训练数据密度而有所区别。一些模型会去精细的表征训练数据，另一些则会以某种方式去和训练数据进行互动——比如说生成模型。GAN 就是这里所说的后者。大部分生成模型的学习原则都可被概括为「最大化相似度预测」——即让模型的参数能够尽可能地与训练数据相似。

GAN 的工作方式可以看成一个由两部分构成的游戏：生成器（Generator/G）和判别器（Discriminator/D）（一般而言，这两者都由神经网络构成）。生成器随机将一个噪声作为自己的输入，然后尝试去生成一个样本，目的是让判别器无法判断这个样本是来自训练数据还是来自生成器的。在判别器这里，我们让它以监督学习方式来工作，具体而言就是让它观察真实样本和生成器生成的样本，并且同时用标签告诉它这些样本分别来自哪里。在某种意义上，判别器可以代替固定的损失函数，并且尝试学习与训练数据分布相关的模式。

何为 Wasserstein GAN?

就其本质而言，任何生成模型的目标都是让模型（习得地）的分布与真实数据之间的差异达到最小。然而，传统 GAN 中的判别器 D 并不会当模型与真实的分布重叠度不够时去提供足够的信息来估计这个差异度——这导致生成器得不到一个强有力的反馈信息（特别是在训练之初），此外生成器的稳定性也普遍不足。

Wasserstein GAN 在原来的基础之上添加了一些新的方法，让判别器 D 去拟合模型与真实分布之间的 Wasserstein 距离。Wassersterin 距离会大致估计出「调整一个分布去匹配另一个分布还需要多少工作」。此外，其定义的方式十分值得注意，它甚至可以适用于非重叠的分布。

为了让判别器 D 可以有效地拟合 Wasserstein 距离：

其权重必须在紧致空间（compact space）之内。为了达到这个目的，其权重需要在每步训练之后，被调整到-0.01 到+0.01 的闭区间上。然而，论文作者承认，虽然这对于裁剪间距的选择并不是理想且高敏感的（highly sensitive），但是它在实践中却是有效的。更多信息可参见论文 6 到 7 页。
由于判别器被训练到了更好的状态上，所以它可以为生成器提供一个有用的梯度。
判别器顶层需要有线性激活。
它需要一个本质上不会修改判别器输出的价值函数。

K.mean(y_true y_pred)

以 keras 这段损失函数为例：

这里采用 mean 来适应不同的批大小以及乘积。
预测的值通过乘上 element（可使用的真值）来最大化输出结果（优化器通常会将损失函数的值最小化）。

论文作者表示，与 vanlillaGAN 相比，WGAN 有一下优点：

有意义的损失指标。判别器 D 的损失可以与生成样本（这些样本使得可以更少地监控训练过程）的质量很好地关联起来。
稳定性得到改进。当判别器 D 的训练达到了最佳，它便可以为生成器 G 的训练提供一个有用的损失。这意味着，对判别器 D 和生成器 G 的训练不必在样本数量上保持平衡（相反，在 Vanilla GAN 方法中而这是平衡的）。此外，作者也表示，在实验中，他们的 WGAN 模型没有发生过一次崩溃的情况。