【原】CVPR2022《BridgeFormer》港大&腾讯&伯克利提出带有多项选择任务的视频文本检索模型，性能SOTA！

我爱计算机视觉 2022-05-19 发布于江苏

展开全文

详细信息如下：

论文链接：https:///abs/2201.04850
项目链接：https://github.com/TencentARC/MCQ

摘要

近年来，对一个模型进行预训练，学习可迁移的视频文本表示以供检索，引起了人们的广泛关注。以前的主流作品主要采用两个单独的编码器进行高效检索，但忽略了视频和文本之间的局部关联。另一项研究使用联合编码器与文本进行视频交互，但效率较低，因为每个文本-视频对都需要输入到模型中。在这项工作中，作者实现了细粒度的视频-文本交互，同时通过一种新的借口任务（pretext task），即多项选择问题（MCQ），保持检索的高效性，在该任务中，参数化模块BridgeFormer经过训练，通过借助视频特征回答文本特征构造的“问题”。

具体而言，作者利用文本（即名词和动词）的丰富语义来构建问题，通过这些问题，视频编码器可以被训练来捕捉更多的区域内容和时间动态。在问答形式中，局部视频文本之间的语义关联可以正确建立。BridgeFormer可以被移除以进行下游检索，只需两个编码器即可提供高效灵活的模型。本文的方法在五个不同实验设置（即Zero-Shot和微调）的数据集中，在流行的文本到视频检索任务上优于最先进的方法，包括HowTo100M（一百万个视频）。

作者进一步进行了Zero-Shot动作识别，它可以看作是视频到文本的检索，本文的方法也明显优于其他方法。本文的方法在单模态下游任务（例如，带有线性评估的动作识别）上通过更短的预训练视频获得了有竞争力的结果。

Motivation

预训练一个学习视频文本检索可转移表示的模型需要理解视频概念、文本语义和视频-文本的关系。现有的视频文本预训练作品可分为两大类。“双编码器”方法（上图（a））采用两个单独的编码器分别对比视频级和句子级表示，忽略每个模态内的详细局部信息以及模态之间的关联。“联合编码器”方法（见上图（b））将文本和视频连接起来，作为联合编码器的输入，用于视频和文本的局部特征之间的交互，提高检索效率（推理过程中需要将每一个文本-视频对输入编码器），以实现细粒度特征学习。

为了实现细粒度的视频文本交互，同时保持较高的检索效率，作者引入了一种用于视频文本预训练的新参数化借口任务，即多项选择题（MCQ），它可以在视频的所有特征级别上适当地连接文本。因此本文提出了BridgeFormer，如上图所示。BridgeFormer基于“双编码器”框架的主干，通过视频特征的视觉推理，训练其回答文本特征生成的“问题”。MCQ增强了每个模态中的局部特征学习，以及跨模态的细粒度语义关联，并且在转移到下游任务时，BridgeFormer可以很容易地移除，而不会丢失表示的区分性。

具体来说，作者通过从原始文本中删除内容短语来构建“问题”，正确的“答案”应该是删除的短语本身。由于观察到文本中的名词和动词短语包含丰富的语义信息，可以分别反映视频中的局部对象和对象运动，作者随机选择名词或动词作为内容短语。然后以对比学习的形式训练BridgeFormer，借助视频编码器的局部特征，从多项选择（一个Batch中删除所有内容短语）中选择正确答案。这样的代理训练目标强制视频编码器捕捉准确的空间内容（回答名词）和时间动态（回答动词），促进局部特征的区分性以及局部视频patch和文本短语之间的语义关联。

BridgeFormer在所有特征级别（低级、中级和高级）连接视频和文本的局部特征，即从视频和文本编码器获取每个阶段的特征作为输入。正则化将直接应用于视频和文本特征，这不同于传统的“联合编码器”对视频和文本特征进行聚合。因此，BridgeFormer仅用于预训练步骤，可以无缝移除以进行下游检索，从而形成一个双编码器。

方法

本文采用“双编码器”结构进行视频文本预训练，以实现高效检索，并提出了一种新的借口任务——多项选择题（MCQ），带有参数化模块BridgeFormer，以增强视频和文本之间的细粒度语义关联。

3.1. Dual-encoder for Video-text Pre-training: a revisit

如上图所示，作者采用了一种双编码器结构，它包括一个用于从原始视频帧像素学习视频表示的VideoFormer和一个用于从自然语言编码文本表示的TextFormer。给定一个视频及其相应的文本描述（例如，“A girl in shorts and a hat is dancing on the green grass”），首先嵌入VideoFormer和TextFormer各自的表示，这两个表示通过两个独立的线性层投影到一个共同的嵌入空间，即和。视频和文本之间的相似性是通过和之间的点积来计算的。

对比目标用于最大化正对的和之间的相似性，同时最小化负对的和之间的相似性（视频及其相应的文本描述被视为正对，否则被视为负对）。独立的双编码器路径只需要视频和文本表示之间的点积，用于检索中的相似性计算，这确保了高效性。

3.2. Multiple Choice Questions

借口任务MCQ使用参数化模块BridgeFormer执行，该模块将VideoFormer和TextFormer的所有级别中间token关联起来，以回答多项选择题。鉴于文本中的名词和动词短语携带丰富的语义信息，可以分别反映视频中的局部对象和对象运动，作者随机删除名词或动词短语来构造名词或动词疑问句。然后，BridgeFormer通过对比学习的形式，借助VideoFormer的局部token，从多项选择中（一个batch中删除所有短语）选择正确答案。借口任务MCQ包括回答名词性问题和动词性问题。

Answer Noun Question

给定一个视频及其相应的文本描述（例如，“A girl in shorts and a hat is dancing on the green grass”），作者随机删除一个名词短语（例如，“green grass”）作为名词问题（例如，“A girl in shorts and a hat is dancing on the [?]”）。名词问题被输入到TextFormer中生成中间文本token 。中间视频token从VideoFormer中提取为。

BridgeFormer使用名词问题token作为查询，视频token作为键和值，通过跨模态注意力获得名词答案表征。删除的名词短语被输入TextFormer，用于名词表示。类似地，名词答案表示和名词表示通过两个独立的线性层投影到一个公共嵌入空间中，表示为和，并通过点积计算它们的相似性。

当是正确名词短语的表示时，作者采用对比目标来最大化和之间的相似性；当是其他（错误）名词短语的表示时，作者采用对比目标来最小化和的相似性。训练BridgeFormer通过使用视频token选择正确的名词短语，强制VideoFormer捕获准确的空间内容。

Answer Verb Question

类似地，作者将文本描述中的动词短语（例如，“dancing”）随机删除为动词问题（例如，“A girl in shorts and a hat is [?] on the green grass”）。BridgeFormer将来自TextFormer的动词问题文本token作为查询，视频token 作为键和值，以获得动词答案表示。删除的动词短语被输入TextFormer，用于动词表示。

动词回答表征和动词表征投射到一个公共嵌入空间中，表示为和。当是正确动词短语的表示时，采用对比目标来最大化和之间的相似性，当是其他动词短语的表示时，尽量减少和之间的相似性。通过向视频token寻求帮助，训练BridgeFormer选择正确的动词短语，迫使VideoFormer捕捉详细的时间动态。

3.3. Pre-training Objectives

作者采用Noise-Contrastive Estimation（NCE）作为对比目标，并结合三个目标以端到端的方式优化整个模型，如下所示：

其中，是视频表示和文本表示之间的NCE损失，是名词回答表示和名词表示之间的NCE损失，是动词回答表示和动词表示之间的NCE损失。损失函数计算如下：

式中，B是Batch的数量，温度超参数τ根据经验设置为0.05

3.4. Model Architecture

3.4.1 VideoFormer

Input

VideoFormer将一段视频作为输入，输入视频首先被划分为大小为P×P的M×N个patch，其中N=HW/p2。视频patch被送入一个带有卷积层的线性投影头中，并被转换成一系列token，其中D是嵌入维数。一个可学习的[CLS] token被连接到token序列的开头，用于生成最终的视频表示。可学习的空间位置嵌入被添加到每个视频token中，作为最终输入token序列。不同帧中相同空间位置的所有patch被赋予相同的空间位置嵌入。

VideoBlock

输入的视频token序列被送入VideoFormer中，VideoFormer由一堆视频块组成。作者对原始ViT做了一个小的修改，以允许输入可变长度的视频帧。具体来说，给定之前的视频块中的，作者对[CLS] token执行多头注意力（MSA）。对于其余（M×N）个patch token，在M个帧中的每个帧内执行MSA，其中N+1个 token（N个patch tokens和1个[CLS] token）用于空间自注意力。视频表示来自最终视频块的[CLS] token。

3.4.2 TextFormer

Input

TextFormer将三种自然语言作为输入，包括完整的文本描述、删除名词或动词短语的名词或动词疑问句，以及删除的名词或动词短语。[CLS] token连接到输入的开头，用于最终文本表示。

TextBlock

本文采用多层双向Transformer编码器作为TextFormer，它由一堆文本块组成。

3.4.3 BridgeFormer

Input

BridgeFormer以TextFormer中的名词性问题或动词性问题token作为查询，以VideoFormer中的视频token作为键和值，获得具有跨模态注意的答案表征。

BridgeBlock

BridgeFormer是建立在一个具有一堆BridgeBlocks的视觉Transformer上的。具体来说，给定TextBlock的名词问题或动词问题文本token作为查询，VideoBlock的视频token（不含[CLS] token）作为键和值，BridgeBlock-l通过执行多头注意力来获得交互token，计算每个帧内问题文本token和视频patch token之间的跨模态注意。交互token与之前BridgeFormer的输出相加，并进一步通过时间和空间自注意力的注意块，以获得答案token 。答案表示从最终块的[CLS] token中提取。

实验

上表展示了MSRVTT上检索的实验结果。

上表展示了在其他四个数据集上的视频-文本检索的实验结果。

上表展示了在HMDB51和UCF101数据集上zero-shot动作识别的实验结果。

上表展示了在HMDB51和UCF101数据集上动作识别的实验结果。

上表展示了MCQ的消融实验结果。

上表展示了有无视频输入对实验结果的影响，可以看出视频有助于回答问题。

上表展示了回答名词问题时候的attention结果。

上表展示了回答动词问题时候的attention结果。

总结

在这项工作中，作者为视频文本预训练引入了一种新的借口任务——多项选择题（MCQ），它加强了局部视频和文本特征之间的细粒度语义关联，同时保持了较高的检索效率。参数化模块BridgeFormer经过训练，能够通过借助视频特征来回答由文本特征构建的问题，并且可以很容易地在下游任务中移除。对文本到视频检索和Zero-shot动作识别的广泛评估清楚地表明了本文方法的巨大优势。