自监督式特征增强在大图像目标检测中的应用

taotao_2016 2020-10-26

展开全文

Manuscript received July 4, 2019; revised February 15, 2020 and April 7, 2020; accepted April 29, 2020. Date of publication May 14, 2020; date of current version July 6, 2020. This work was supported in part by the National Key Research and Development Program of China under Grant 2018YFC0807500, in part by the National Natural Science Foundation of China under Grant 61832016, Grant 61672520, and Grant 61720106006, and in part by the CASIA-LLVision Joint Laboratory.

1、简介与概述

在深度卷积神经网络（CNNs）的帮助下，目标检测的性能得到了显著提高。在这些测试中，典型的图像大小为 480×640。然而，在某些应用领域，输入图像的分辨率非常高。由于限制，高分辨率图像不能作为目标检测框架的输入。为了处理上述问题，我们将输入图像降采样到小尺度。我们将高分辨率图像下采样到不同的比例，然后将图像从最小增加到对应的不同比例。通过下采样获得的图像称为高分辨率图像，而通过上采样获得的图像称为低分辨率图像。然后，我们使用上述每组图像训练深度神经网络。图 1 中的虚线显示了将高分辨率缩小图像作为输入时检测平均精度（AP）与图像大小变化的比较。实线显示了使用这些低分辨率图像作为输入的检测结果。与虚线显示的结果一致，大尺寸输入优于小尺寸或中等尺寸输入。从这些比较中，我们有以下观察结果：

·在一定范围内，随着输入大小的增加，检测网络的性能也相应提高。

·在相同的图像尺寸下，由于上/下采样过程中的信息丢失，使用下采样（高分辨率）输入训练的检测器的性能优于使用上采样（低分辨率）。

图一检测平均精度不同输入大小的比较

根据结果，我们可以大致得出结论，即在适当的范围内增加输入尺度和提高输入图像的分辨率。然而，直接增加输入规模是消耗内存的，在内存限制下是不可能实现的。因此，我们尝试向上采样特征映射，而不是直接对输入进行上采样。

本文提出了一种用于超大图像目标检测和实例分割的自监督式特征增强网络（SFANet），旨在学习图像中特征映射。我们提出了一个引导特征上采样模块，该模块以下采样图像为输入，学习图像的特征表示，并获取。为了有效的上采样，我们提出了一个卷积块，以最小的特征信息损失进行数据增强。本文的主要贡献如下：

我们首次提出在对象检测框架内系统分析尺度异质性。
我们提出了一种新的自我监督式特征增强网络 SFANet，它通过自监督学习来完成大图像目标检测任务。
我们的方法在 MVD（Mapillary Vistas Dataset）和 CityScape 方面取得了良好的结果，并在 COCO 数据集上获得了更高效率的结果。

2、不同大小的图像检测

我们定义的 Pand-Pto 分别表示对象检测管道的深层特征表示和对象检测器部分。我们在训练和测试之间使用不同大小的图像，然后将不同的图像输入给 Pand-Pto，将高分辨率信息引入到不同大小的图像中有利于提高检测性能。我们观察到，大图像的输入对于目标检测很重要。当输入尺寸大于 800×1400 时，训练的改善很小。在一定范围内，随着输入规模的增加，性能不断提高。然而，对于超大图像来说，内存不足，无法达到最佳比例。因此，我们进行了一系列的实验来验证特征上采样是否有效。

我们将目标检测管道分为两部分，即特征表示和检测头。以 Ptakes 图像为输入。我们为训练了三组数据集。这些数据之间唯一的区别是图像的大小。

我们在每组数据集上训练模型，得到了三个模型。这些模型在评估数据集上进行评估。结果列如表一所示。在第二行和第三行的结果比较表明，增加特征表示的规模确实可以提高检测性能。我们依次在训练后、训练阶段和训练开始时增加特征量表，发现越早进行上采样，性能越好。

表一不同尺寸下训练和测试时的 MVD 检测结果

3、自我监督特征增强

我们提出了一种目标检测框架 SFANet，通过自我监督的方式将高分辨率图像信息引入到框架中。我们使用 FPN-based 和 Mask R-CNN，设计了上采样模块，有效地学习大图像的特征。此外，我们使用剩余亚像素卷积块来辅助上采样。在 A 部分介绍了方法的网络结构，在 B 部分介绍引导特征上采样模块。在 C 部分，介绍了剩余亚像素卷积块。

A、网络体系结构

SFANet 的整体结构如图 2 所示。黄色虚线框中的组件为本文提出的。所提出的引导特征上采样模块位于主干网的自底向上路径之后，学习从大尺寸图像中提取的特征 C1 来引导的每一级（{C2-C5}）上采样特征。学习到的特征（{F2-F5}）被送入第二条自顶向下的路径，最后进入检测块。

图二 SFANet 的整体结构

B、引导特征上采样模块

使用特征上采样进行目标检测可以提高检测性能减少内存和计算开销。因此，我们提出了一个引导特征上采样模块。我们设计了如图 2 所示的引导特征上采样模块（用黄色虚线框标记），以有效地改进目标检测的特征表示。我们引入大尺寸图像特征作为辅助监督，通过特征上采样进行学习。

我们采用横向上采样和自顶向下上采样。自上而下的路径将特征映射迭代到 F2。这些特征通过横向上采样的自底向上路径特征得到增强。

C、剩余亚像素卷积块

我们设计了一个残存的亚像素卷积块，将自上而下和横向连接路径有效地连接到上采样特征。与反卷积层进行特征上采样的方法不同，我们的方法采用亚像素卷积层对特征地图进行上采样。图 3 详细说明了这两种方法之间的区别。

图 3 反卷积和亚像素卷积层如何进行上采样过程的比较。

（a）输入像素

（b） 3×3 卷积后输出特征图

（c）反卷积

（d）亚像素卷积是两种不同的特征上采样方式。

图 3（b）是图 3（a）与 3×3 核卷积后的结果。反卷积层（图 3（c））首先填充零（标记为灰色正方形），然后执行标准卷积。上采样要素图中的中心元素是从红色虚线框中的元素获得的，该框中只有一个元素（用蓝色填充）。与反卷积层相比，亚像素卷积层（图 3（d））首先使用 3×3×4 内核将信息嵌入到信道中，然后周期性地重新排列以生成一个放大的映射。使用图 3（b）中的所有元素计算中心区域中的每个元素。

4、实验

我们采用基于 Pytorch 的 mmdetection 开源代码来训练网络。在实验中对于每个图像，我们采样 512 个 RoIs，默认的正色调负比为 1:3。权重衰减设置为 00001。实验在三个数据集上进行，分别是 MVD、Cityscapes 和 COCO。

MVD 实验

（一）数据集和指标：MVD 是一种新的街道级图像数据集，在天气和照明条件以及捕捉传感器特征方面具有多样性。该数据集包含大约 25k 个高分辨率图像。平均短边约为 2500 像素。

（二）主要结果：图 5 中的验证子集上展示了我们方法的语义分段结果。

图四基于 MVD-val 子集的 SFANet 语义分割结果

Cityscapes 实验

（一）数据集和指标：Cityscapes 是另一个流行的数据集，包含车载摄像头拍摄的街道场景，图像大小为 1024×2048。总共有 2975 个训练图像，500 个验证图像和 1525 个带有精细注释的测试图像。另一个 20k 图像具有粗略的注释。

（二）结果和性能：我们使用从[800×1024]随机抽样的图像尺度（短边）进行训练。结果显示，我们的方法优于所有其他方法。我们将我们提出的模型与其他基于 FPN 的方法相结合，进一步验证了我们方法的有效性。

COCO 实验

1）数据集和指标：COCO 数据集是实例分割和对象检测中最具挑战性和最受欢迎的数据集之一。它包含 115k 个用于培训的图像和 5k 个用于验证的图像。

2）结果和性能：我们将所有其他方法的输入尺度设置为 800，并使用从[400×800]随机抽样的尺度来验证所提出的自我监督特征增强。结果表明，我们的方法能够以较高的效率获得可比的结果。

5、结论

本文研究了目标检测流中图像尺寸的影响，提出了一种主要面向超大图像的 SFANet。从上采样特征和引入高分辨率图像信息的角度，设计了引导特征上采样模块。该模块通过使用所提出的残存亚像素卷积块来提升特征，并通过添加引导特征丢失分支引入高分辨率信息。特征上采样模块的目的是在大特征的监督下，以较小的网络输入学习与大图像匹配的实体特征。我们在 MVD 和城市景观上进行了多个实验，以证明该管道的有效性。

本论文由 iSE 实验室 2019 级硕士生徐彬桐转述。