▊ 写在前面 文本视频检索是一项具有挑战性的任务,其目的是基于自然语言描述搜索相关的视频内容。这个问题的关键是在联合嵌入空间中测量文本视频的相似性。然而,大多数现有的方法只考虑全局交叉模态相似性,忽略局部细节。有些作品通过跨模态局部匹配和推理结合了局部比较。这些复杂的操作会带来巨大的计算量。 ▊ 1. 论文和代码地址 论文地址:https:///abs/2104.10054 代码地址:未开源 ▊ 2. Motivation 视频由于其丰富的多模态内容和时间动态性而成为信息量最大的媒体之一。文本视频检索系统使人们能够通过简单自然的交互方式搜索视频。实现视频跨模态检索的一个方向是基于度量学习的文本视频相似性度量。 ▊ 3. 方法 3.1. Overview3.2. Video Representations与图像数据相比,视频更复杂,包含更丰富的信息,如动作动、音频和语音。为了在文本视频检索任务中充分利用视频数据中的多模态信息,作者利用了多个专家对原始视频进行编码。 global expert features for global alignment全局专家特征的目标是为每个专家执行时间聚合,以生成用于全局对齐的全局专家特征。目前存在一些现有的时间聚合操作来获得全局向量,例如,CNN,Transformer和NetVLAD。 fuse multi-expert features for local alignment作者首先为每个专家使用一个全连接层,将不同的专家特征投影到C维嵌入空间。然后,将来自所有专家的特征concat起来,生成局部特征,其中M表示来自所有专家的特征数量。 1)本文的方法只使用一层Transformer编码器,因此引入的参数更少,计算效率更高; 2) 本文的目标是保持输入特征的局部性。此过程的输出特征与输入特征具有相同的长度。 3.3. Text RepresentationsBERT模型在语言特征编码方面显示了强大的泛化能力,因此作者利用了预训练的BERT模型。BERT模型为每个文本输入提取上下文单词嵌入。输入句子被标记并填充为固定长度的序列,然后输入到BERT模型中。 3.4. Local Alignment在上述文本编码和视频编码之后,作者为每个输入文本视频对获得B个局部上下文单词嵌入和M个视频局部特征。这些特征包含有关输入句子和视频的丰富信息。 其中是一个可学习的偏置项。在实践中,可以用BN代替偏差项,该层通过两个内置的可学习参数标准化和移位激活。然后得到每个中心上的聚类残差特征: 其中,和具有相同尺寸的可训练权重,“normalize”表示ℓ2-标准化操作。然后就可以获得一组聚合的视频特征。的每一个特征都是视频的局部特征对齐的。背景中心的聚合特征已被丢弃,并且不涉及以下相似度的计算。 其中,是嵌入在中的局部单词。我们可以获得文本序列的最终局部特征。由于视频和文本的局部特征分配和聚合共享相同的中心,因此最终特征和 可以有效地对齐。然后,利用余弦距离来度量最终视频和文本特征之间的局部相似性。 3.5. Global Alignment作者引入全局对齐有两个原因。首先,文本-视频对的全局特征更全面,与局部特征互补 。其次,当缺乏辅助监控时,特别是当视频特征包含多模态信息时,模型难以优化与可训练中心的精细局部对齐 。 其中,表示第i个专家的权重。权重由文本表示通过具有softmax归一化的线性投影生成。作者利用文本-视频相似度在文本-视频和视频-文本检索任务上获得一个 bi-directional max-margin ranking loss。 ▊ 4.实验 4.1. Comparison to State-of-the-artMSRVTTActivityNet CaptionsLSMDC4.2. Ablation StudyThe effectiveness of the global-local alignmentThe effectiveness of collaborative VLAD上表展示了不同VLAD的实验结果,可以看出共享VLAD能够达到更好的实验结果。 4.3. Qualitative ResultsVisualization of the assignmentsVisualization of the text-to-video results▊ 5. 总结 本文介绍了一种端到端的文本视频序列对齐方法。作者发现,文本和视频之间的局部语义对齐对于高性能检索系统至关重要。作者还实现了基于NetVLAD的局部对齐目标,并将T2VLAD引入到协同文本视频编码中。 ▊ 作者简介 知乎/公众号:FightingCV ![]() END 欢迎加入「视频检索」交流群👇备注:检索
|
|