【原】X-Pool：多伦多大学提出基于文本的视频聚合方式，在视频文本检索上达到SOTA性能！（CVPR 2022）

我爱计算机视觉 2022-05-17 发布于江苏

展开全文

详细信息如下：

论文链接：https:///abs/2203.15086
项目链接：https://layer6ai-labs./xpool/

摘要

在文本-视频检索中，目标是学习文本和视频之间的跨模态相似函数，该函数将相关文本-视频对的排名高于不相关对。然而，视频本身所表达的信息比文本要广泛得多。

相反，文本通常捕获整个视频的子区域，并且在语义上与视频中的某些帧最为相似。因此，对于给定的文本，检索模型应该关注文本在语义上最相似的视频子区域，以便进行更相关的比较。然而，大多数现有作品在不直接考虑文本的情况下聚合了整个视频。常见的文本不可知聚合方案包括帧上的平均池化或自注意，但这些可能会编码给定文本中未描述的误导性视觉信息。

为了解决这个问题，本文提出了一个名为XPool的跨模态注意力模型，该模型在文本和视频帧之间进行推理。本文的核心机制是对文本进行scaled dit product attention，以关注其语义上最相似的帧。然后，根据文本在帧上的注意权重生成聚合视频表示。

Motivation

TikTok、YouTube和Netflix等视频内容平台的出现，使视频在世界各地得以大规模推广。检索与基于文本的搜索查询在语义上最相似的视频的能力使我们能够快速找到相关信息，并理解大量视频数据。

文本视频检索是解决这一问题的一种方法，其目标是让模型学习文本和视频之间的相似性函数。为了计算两种模态之间的相似性，一种常见的技术是首先将文本和视频嵌入到联合潜在空间中，然后应用距离度量，例如文本和视频嵌入之间的余弦相似性。

然而，这两种模态之间存在一个重要的差异，使得这种直接比较具有挑战性。视频本身比文本表达的信息范围要广得多，因此文本通常无法完全捕获视频的全部内容。相反，文本在语义上最类似于视频的子区域，表示为帧的子集。根据给定的文本，语义最相似的帧会有所不同，因此多个同等有效的文本可以匹配特定的视频。

图1展示了来自MSR-VTT数据集的示例视频帧。这些帧描绘了国际新闻中的各种场景，表达了不同的视觉内容。此外，图1展示了与该视频相关的多个字幕，并观察到每个字幕最适合匹配不同的视频帧，但似乎与其他视频帧无关。

基于这一观察，作者希望检索模型能够在检索过程中关注与给定文本最相关的视频子区域。因此，模型应该直接在文本和视频帧之间进行推理，以提取每个文本中描述的最相关信息。然而，大多数现有的作品并没有应用直接的跨模态推理，而是利用视频的全部内容，例如通过平均池化或自注意力。通过独立于给定文本对视频进行编码，模型可能会对文本中未描述的甚至分散注意力的视觉信息进行编码，这可能会降低检索性能。

为了解决这个gap，作者设计了一个跨模态的注意力模型，称之为X-Pool，以允许文本和视频帧之间的联合推理。与之前的工作不同，本文的模型汇集了视频的整个帧，为文本提供了灵活性，以关注其语义最相似的帧，然后根据这些帧生成聚合视频表示。

方法

3.1. Expanding Joint Text-Image Models

Bootstrapping From Joint Text-Image Models

经过联合预训练的文本-图像模型已经证明能够匹配语义相似的文本和图像。我们可以利用此类模型的现有文本图像推理来引导联合文本视频模型。这使我们能够用更少的视频数据学习语言视频交互，并在训练期间提供更高效的计算解决方案，同时受益于对预先训练的联合文本图像模型的丰富跨模态理解。

CLIP as a Backbone

由于其强大的下游性能、简单性，作者从CLIP中进行了bootstrap，并与最近也将CLIP用作主干的作品进行了更客观的比较。为了从CLIP中bootstrap文本视频检索，作者首先将文本和单个视频帧嵌入其联合潜在空间，然后将帧嵌入合并以获得视频嵌入。由于从预训练好的CLIP模型中提取的现有信息包含丰富的文本图像语义，作者使用CLIP作为主干，学习一个新的联合潜在空间来匹配文本和视频，而不仅仅是图像。

更准确地说，给定一个文本t和视频帧作为输入，CLIP输出联合空间中的一个文本嵌入和一个帧嵌入：

其中是CLIP的文本编码器，是CLIP的图像编码器。对于每个视频，我们可以得到一系列的帧嵌入

。

Computing Text and Video Embeddings

如前所述，作者希望将给定的文本和视频嵌入到一个联合空间中，以计算相似度。也就是说，我们想要计算一个文本嵌入和视频嵌入。文本嵌入直接作为CLIP的输出。另一方面，我们通过使用时间聚合函数ρ将中的帧嵌入聚合来计算视频嵌入：

3.2. Gap: Text-Agnostic Pooling

在大多数现有作品中，聚合函数ρ并不直接考虑输入文本，而是纯粹的视频帧函数，例如通过平均池化、自注意力或LSTM。

虽然将时间聚合函数定义为与文本无关形成了一个简单的baseline，但这种方法存在一些重要的缺点。视频本质上比文本更具表现力，因此文本中捕获的信息通常无法完全捕获整个视频的信息。相反，文本在语义上与我们定义为帧子集的视频的某些子区域最为相似。因此，文本不可知聚合方案（平均池化、自注意力或LSTM）可能会对输入文本中未描述的虚假信息进行编码。

当我们考虑视频在视觉内容上表现出显著的多样性时，这种影响会加剧，作者称之为内容多样性。找到具有场景转换的视频是很自然的，例如演员从室内环境移动到室外环境时，电影中突然的场景切换，关键主题的遮挡，或以干扰物的形式出现的噪音。由于这是许多“野外”视频的固有属性，我们希望检索模型能够通过将注意力集中在给定文本中描述的最相关视频子区域，从而对此类内容多样性具有鲁棒性。直观地说，在这种设置下，任何与文本无关的方法都会失败，因为它会聚集来自视频所有场景的信息，而忽略用于检索的输入文本。

3.3. Key Insight: Text-Conditioned Pooling

因此，重要的是要将文本与给定文本的语义最相似的视频帧匹配，而不是与视频的全部内容匹配。根据给定的文本，语义最相似的帧会有所不同，因此可能会有多个与特定视频匹配的同等有效的文本。因此，本文的时间聚合函数应该直接在给定文本和视频帧之间进行推理。

为此，作者制定了一个新的时间聚合函数π，它能够聚合在语义上与给定文本t最相似的视频帧。通过调节π，我们可以从视频v中提取t中描述的最相关的信息，同时抑制噪音和误导性的视觉线索。我们将得到的聚合视频嵌入表示为，相似性函数定义为：

为了证明本文的想法的有效性，作者首先提出了top-k聚合函数πtop-k（C v | t），如下所示：

其中，集合K定义为：

所选帧是具有最高余弦相似性的帧。在这里，作者直接选择与给定文本具有最高余弦相似性的帧作为语义相似性的代理。只有与给定文本在语义上最相似的top-k帧被合并，而较低相似性的帧被完全忽略。作者观察到，即使只应用top-k池化，与时间聚合函数不依赖文本的baseline相比，已经有了显著的改进。

3.4. Our Model: X-Pool

Towards Parametric Text-Conditioned Pooling

然而，top-k方法仍然存在缺点。首先，k超参数的调整可以是特定于任务和实例的。第二，决定从哪些帧聚合可能需要比简单的余弦相似性更复杂的推理。第三，抑制所有较低权重的帧过于严格。因此，作者提出了一种参数化方法来解决这些额外的考虑。

Cross-Modal Language-Video Attention

本文的想法是设计一个具有参数能力的学习帧聚合函数，用于对视频中文本语义最相似的帧进行跨模态推理，称之为X-Pool。核心机制是在文本和视频帧之间调整scaled dot product attention。以这些帧为条件，生成一个视频嵌入，学习捕获给定文本中描述的语义最相似的视频子区域。

由于语义相似度最高的帧可能因文本而异，本文的缩放点积注意机制可以学习突出显示给定文本的相关帧，同时抑制所述文本中未描述的帧。模型能够根据与给定文本的相关性选择性地选择帧，其动机与前面描述的top-k方法相同。然而，与top-k方法不同，本文提出的模型学习文本-视频对的最佳信息量，从而消除了手动指定k值的需要。此外，我们的交叉注意模块处理高相关性和低相关性帧，而不是像top-k方法那样采用硬性选择相关帧。

在本文的跨模态注意模块中，作者首先将一个文本嵌入转化为单个查询，将视频帧嵌入转换为Key 和Value ，其中是模型的潜在维度的大小，是投影维度的大小，表示如下：

其中LN是一个Layer Normalization层，在

是投影矩阵。dot product attention给出了从文本到每个帧的相关性权重，作者利用这些权重来聚合投影帧嵌入的值：

为了将视频嵌入到带有文本的共享空间中，作者将注意力模块的聚合视频表示用权重投射回中：

其中，结果输出是以文本t为条件的聚合视频嵌入。因此，文本可以通过点积注意中的参数推理来关注其语义最相似的帧。最终文本条件池化定义为：

其中FC是一个全连接的网络。

Loss

作者使用由N个文本和视频对组成的数据集D来训练模型。在每一对中，文本是对应视频的匹配文本描述。利用交叉熵损失，将匹配的文本-视频对视为正样本，并将batch处理中的所有其他成对文本-视频组合视为负样本。具体而言，作者将对称文本到视频和视频到文本的损失降至最低：

实验

上表展示了本文方法在三个数据集上的实验结果，可以看出本文方法在性能上相比于其他方法具有优越性。

上图（a）展示了top-k方法和baseline的性能对比，可以看出top-k能够显著提高模型的检索性能。上图（b）展示了k值的分析结果，我们观察到，在文本-视频对之间，k的最佳选择差异很大，这使得一般来说k很难选择。

因此，为了更有效地测试文本视频检索方法对内容多样性的鲁棒性，一种方法是通过更多的场景转换在视觉内容中引入额外的多样性。也就是说，作者通过从数据集中随机注入另一个视频来增加视频的视觉内容，以模拟突然的场景转换。通过对这些增强视频及其原始文本标题执行检索，可以更好地评估检索模型处理野外各种视频的能力。从上图的结果中可以看出，X-Pool对这种场景转换带来的干扰影响最小。

上图展示了本文方法中，不同句子对视频帧得到权重的可视化结果。

总结

在这项工作中，作者强调了文本不可知的视频池化方法的缺点，并提出了一个文本视频检索的文本条件池化的替代框架。然后，作者扩展了想法和得出的见解，设计了一个参数化模型，用于文本和视频帧之间的交叉模态注意，称为X-Pool。作者展示了X-Pool如何学习关注与给定文本最相关的帧，这也使模型对视频内容多样性（如场景变换形式）更具鲁棒性。