【原】CVPR2022 Oral：GAN监督的密集视觉对齐，代码开源

我爱计算机视觉 2022-05-02 发布于江苏

展开全文

1 引言

该论文发表于CVPR2022，主要是关于GAN监督学习在密集视觉对齐中的应用，并且论文代码已经开源。在该论文中作者提出了一种用于端到端联合学习的GAN生成数据的框架。受到经典方法的启发，论文中作者联合训练一个空间变换器，将随机样本从基于未对齐数据训练的GAN映射到共同的、联合学习的目标模式。

实验展示了8个数据集上的结果（如下图所示），可以直观的发现该论文的方法成功地对齐了复杂数据，并发现了图像中密集的对应关系。GANgealing的性能明显优于过去的自监督算法，在多个数据集上的性能与最先进的监督算法相当（有时甚至超过），另外作者也展示了论文中的算法在增强现实、图像编辑和图像数据集的自动预处理方面的应用。

论文链接： https:///abs/2112.05143

论文代码： https://www.github.com/wpeebles/gangealing （Github已有740星）

2 GAN监督学习

在该论文中，作者提出了一种GAN监督学习的算法。在该算法框架下，对是从一个预训练的GAN中采样得来的，并用这些数据对训练一个神经网络，损失函数为

其中为重构损失，在最原始的监督学习中，是在固定的数据对中进行学习，但是在该论文中，和目标是联合端到端学习的，在测试时，评估神经网络是用真实的输入。随着训练成熟，作者从非对齐分布数据分布中进行采样，其中且表示的是隐空间分布。

2.1 密集可视化对齐

该论文的作者将他们的算法称之为GANgealing，算法的具体示意图如上所示。GANgealing首先在未对齐的输入数据集上训练生成模型，其中生成器的输入的隐向量为。当训练时，可以从非对齐的分布中生成样本即，其中且表示的是隐向量空间分布。考虑一个固定的隐向量，该向量对应一个固定的合成图片。一个很简单的想法是去使用当做目标模式，即，其中空间转换器需要利用非对齐样本进行训练。作者可以通过优化关于的参数和目标图片隐向量的联合损失函数：

其中表示的是两张图片之间的距离。通过最小化关于目标隐向量的损失函数，GANgealing可以鼓励找到一个使得工作更容易的姿势。如果当前的数值对应的姿态不能由大多数图片通过被预测出来，则需要通过梯度下降法调整隐向量。提高生成器生成质量一个简单合理的方法是限制数据集的多样性，然而由于显著外观和姿态的变化的存在，这会导致期望每一个非对齐图片能够精确对齐目标图片是非常不合理的。因此，由下图可知，优化以上损失函数并不会有好的生成效果。可是对每一个随机采样图片代替使用目标，此时如果能够构造一个在样本目标中保持外观，并且姿态和物体方向大体一致的图像的时候，则生成效果质量会高很多。

给定，作者通过设定向量的一部分生成相应的目标。令混合向量是隐向量，通过采样新的向量，可以产生一个无限的数据对池，其中输入是非对齐图像，目标有外观的信息，但是姿态是固定的。此时损失函数可以表示为

其中表示的是感知损失函数。在该论文中，作者生成器选择的是StyleGAN2，其它的生成器结构也可以在该框架中使用，StyleGAN2的优势在于它有高质量强大的风格混合生成能力，作者可以通过使用风格混合来构造每一个样本目标，其中主要用于粗略的控制物体的姿态，主要用于控制物体的纹理轮廓，具体的定性结果由上图像可知。为了更好地提高生成质量，作者使用空间转换器去实现相似性变换，这其中就包含旋转，归一化，水平和垂直移动等。当使用空间转换时，增加一个损失函数可以使得训练过程中更加平滑，具体的损失函数为

其中表示Huber损失函数，和分别表示关于和的偏导数。另外作者还使用了损失函数作为正则化项。更新参数的时候，作者并不是利用反向传播直接到，而是利用了将表示为空间中的个主要方向的线性组合，具体公式如下所示

其中表示的是的实际平均向量，表示的是第个主成分方向，表示对应的系数。代替直接优化中的向量，作者优化的参数是。最终GANgealing的损失函数如下所示

其中作者在论文中会将的数值会设置为或者是，损失权重会设置为。

3 联合对齐和聚类

GANgealing可以处理多模式的数据，并且GANgealing可以通过简单地学习多个目标隐向量来适应聚类算法。令表示希望学习的聚类的数量。由于每个捕获数据中的特定模式，多个即为多个模式。每个将学习自己对应的系数集。类似地，现在有个空间变换器，每个模式对应一个。GANgealing的这种变体相当于同时对数据进行聚类，并学习每个聚类中所有图像之间的对应关系，具体的公式如下所示

在该论文中，作者训练使用标准交叉熵函数在数据对上训练分类器。作者用上的权重初始化分类器，代替随机初始化。虽然训练成本会比较高，但是空间转换器和分类器的泛化效果很好。