【原】CVPR2021 用更好的目标检测器提取视觉特征！微软提出VinVL，基于更好的视觉特征，达到更强的多模态性能

我爱计算机视觉 2021-10-16

展开全文

写在前面

本文详细研究了视觉语言（VL）任务中更好的视觉表示，并开发了一种目标检测模型，来提供以对象为中心的图像表示。与最广泛使用的bottom-up and top-down模型相比，新模型更大，更适用于VL任务，并在结合多个公共目标检测数据集的更大训练语料库上进行预训练。

因此，它可以生成更丰富的视觉对象和概念集合的表示。虽然之前的VL研究主要集中在改进视觉语言融合模型，而不涉及目标检测模型的改进，但作者发现视觉特征在VL模型中起着重要作用。

在本文的实验中，作者将新的目标检测模型生成的视觉特征输入到基于Transformer的VL融合模型OSCAR中，并利用改进的方法OSCAR+对VL模型进行预训练，然后在多个下游VL任务中对其进行微调。结果表明，新的视觉特征显著提高了所有VL任务的性能，在多个基准数据集上达到SOTA的结果。

论文和代码地址

VinVL: Revisiting Visual Representations in Vision-Language Models

论文地址：https:///abs/2101.00529

代码地址：https://github.com/pzzhang/VinVL

Motivation

视觉语言预训练(VLP)已被证明对广泛的视觉语言(VL)任务是有效的。VLP通常包括两个部分：

1）预训练目标检测模型，用于将图像和图像中的视觉对象编码为特征向量；

2）预训练跨模态融合模型，用于混合文本和视觉特征。现有的VLP研究主要集中在改进跨模态融合模型上，而本文着重于改进以对象为中心的视觉表示，并进行了全面的研究来证明视觉特征在VL模型中的重要性 。

在目前的多模态预训练工作中，大多使用的目标检测（OD）模型是在Visual Genome数据集上训练的。OD模型提供了一种以对象为中心的图像表示。在这项工作中，作者预训练了一个基于ResNeXt-152 C4结构（简称X152-C4）的大规模对象属性检测模型。

与以前的OD模型相比，新模型对VL任务进行了专门的设计，并且模型更大，训练的数据量更大，训练的数据结合了多个公共目标检测数据集，包括COCO、OpenImages（OI）、Objects365、Visual Genome (VG)。因此，本文的OD模型在广泛的VL任务上取得了更好的结果，如上表所示。

与其他OD模型（如在OpenImages上训练的X152-FPN）相比，本文的新模型可以对视觉对象和概念的集合进行更精细的编码，如上图中的示例所示（作图为OpenImages上训练的X152-FPN结果，右图为本文模型的结果）。

为了验证新OD模型的有效性，作者在由885万对文本图像组成的公共数据集上预训练了一个基于Transformer的跨模态融合模型OSCAR+，其中这些图像的视觉表示由新OD模型生成，并在OSCAR+预训练期间固定。

然后，通过在广泛的下游任务上微调，包括VL理解任务（如VQA、GQA、NLVR2和COCO文本图像检索），以及VL生成任务（如COCO图像字幕和NoCaps），确定最终的OSCAR+参数。

方法

3.1. Improving Vision (V) in Vision Language (VL)

基于深度学习的VL模型通常包括两个模块：图像理解模块Vision 和跨模态理解模块VL ：

其中，Img和w分别是视觉和语言模态的输入。视觉模块的输出由q和v组成。q是图像的语义表示，如标签或检测到的对象，v是图像在高维潜在空间中的特征表示。大多数VL模型仅使用视觉特征v，而最近OSCAR模型提出，q可以作为学习更好的视觉语言联合表示的anchor，因此可以提高各种VL任务的性能。

上面式子中的w和y因不同VL任务而不同。在VQA中，w是一个问题，y是要预测的答案。在文本图像检索中，w是句子，y是句子图像对的匹配分数。在图像字幕中，w是不给定的，y是要生成的字幕。

视觉语言预训练（VLP）的性能提升主要来自两个方面：

1）将视觉和语言建模与Transformer统一起来

2）使用大规模的图像文本语料库进行预训练

然而，目前的VLP工作将图像理解模块视觉视为一个黑盒，自bottom-up and top-down模型以来，视觉特征的改进未被触及，然而目标检测方面已经取得了很多研究进展：

1）开发了更多样化、更丰富、更大的训练数据集（如OpenImages和Objects 365）

2）在目标检测算法方面获得新的进展，如特征金字塔网络、one-stage密集预测和anchor-free检测器

3）利用更强大的GPU训练更大的模型

本文的重点是改善视觉模态，以获得更好的视觉表现。作者设计了一个新的OD模型，通过丰富视觉对象和属性类别，扩大模型大小和在更大的数据集上进行训练，从而提升多模态预训练模型的性能。

3.1.1. Object Detection Pre-training

为了改进VL任务的OD模型，作者使用了四个目标检测数据集。由于大多数数据集没有属性标注，作者采用预训练和微调策略来构建OD模型。首先在由四个公共数据集组成的大规模语料库上预训练OD模型，然后在Visual Genome上用附加属性分支对模型进行微调，使其能够检测对象和属性。

Data

上表展示了本文目标检测器的训练数据的细节，这些数据集在一定程度上互补的。例如，VG数据集为对象及其属性提供了丰富多样的注释集，并具有开放的词汇表。

但是它的注释非常嘈杂，并且存在注释缺失的问题。而COCO数据集的注释非常好，但是视觉对象和属性的覆盖率远低于VG中的覆盖率。作者采取以下步骤通过组合四个数据集来构建统一的语料库：

1）首先，为了增强尾部类的视觉概念，作者对OpenImages和Objects365执行类感知采样，以获得每个类至少2000个实例，分别得到2.2M和0.8M的图像。

2）为了平衡每个数据集的贡献，作者根据数量合并了四个数据集（8×COCO（8×0.11M）、8×VG（8×0.1M）、2×类感知采样Object 365（2×0.8M）和1×类感知采样OpenImages（2.2M））。

3）为了统一它们的对象词汇表，作者使用VG词汇表及其对象别名作为基本词汇表，如果和它们的类名或别名匹配，则将其他三个数据集中的类合并到VG类中，如果找不到匹配，则添加一个新类。

4）最后，作者保留1594个VG类和来自其他三个数据集的254个无法映射的类，最终数据集包含1848个类。

Model Architecture (FPN vs C4)

尽管最近的工作表明FPN模型在目标检测方面优于C4模型，但FPN没有为VL任务提供比C4更有效的区域特征。作者提出了两个原因：

首先，C4模型中用于区域特征提取的所有层都使用ImageNet数据集进行预训练，而FPN模型的MLP头则没有进行预训练；

第二个原因是不同的网络架构（CNN与MLP）。C4中使用的卷积头在编码视觉信息方面比FPN的MLP头具有更好的假设偏置。因此，作者使用C4架构进行VLP。

Model Pre-Training

按照目标检测训练中的常见做法，首先冻结第一个卷积层、第一个残差块和所有BN层。作者还使用了几种数据增强方法，包括horizontal ﬂipping和multi-scale training。训练具有X152-C4结构的检测模型时，作者用ImageNet-5K的checkpoint初始化模型的backbone，并训练180万次迭代，Batch Size为16。

3.1.2. Injecting attribute information into the model

作者将属性分支添加到预训练好的OD模型中，然后在VG上微调OD模型以注入属性信息（524个类）。由于对象表示在目标检测预训练阶段进行了预训练，因此作者将属性损失权重设为1.25。本文的模型在检测VG上的对象和属性方面明显优于以前的模型。

3.1.3. Efﬁcient region feature extractor for VL tasks

由于视觉对象和属性集更丰富，经典的类感知非极大抑制（NMS）后处理需要大量时间来移除重叠的边界框，使得特征提取过程非常缓慢。为了提高效率，作者用类无关NMS取代了类感知NMS。作者还将dilation=2的卷积换成了正常的卷积。这两种替换使得区域特征提取过程快得多，而VL下游任务的精度没有任何下降。

预训练的OD模型用作图像理解模块，为VL任务生成（，），q是检测到的对象名称集（文本），v是区域特征集。每个区域特征表示为，其中是检测头最后一个线性分类层输入的P维特征(P = 2048)，是区域的R维位置编码(R = 6)。