▊ 写在前面 视频文本检索的挑战包括视觉网络结构的设计 和训练数据的性质 ,因为可用的大规模视频文本训练数据集 (例如HowTo100M) 是noisy的,因此只能通过大量的计算才能达到竞争力的性能。 ▊ 1. 论文和代码地址 Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval 论文:https:///abs/2104.00650 代码:https://github.com/m-bain/frozen-in-time ▊ 2. Motivation 视觉语言任务的快速发展主要归功于三个方面的改进:新的神经网络结构 (例如,用于文本和视觉输入的Transformer);新的大规模数据集 ;能够处理标签噪声的新损失函数 。但是,它们的发展主要在两个独立的赛道上进行: 一个用于图像,一个用于视频。 在本文中,作者尝试统一这两个赛道,提出了一种双编码器结构,该结构利用Transformer视觉编码器的灵活性来从带有字幕的图像、或带有字幕的视频片段或两者进行训练 (如上图所示)。作者通过将图像视为 “时间冻结(frozen in time)” 的视频特例来做到这一点。 ▊ 3. 方法 3.1. Model ArchitectureInput视觉编码器将图像或视频片段作为输入,该图像或视频片段由分辨率为的个帧组成,其中图像的M = 1。文本编码器将标记化的单词序列作为输入。 Spatio-temporal patches遵循VIT和Timesformer中的设置,将输入视频片段划分为大小为P×P的M×N个不重叠的时空块,其中。 Transformer inputPatch通过2D卷积层处理,并且输出flatten,形成用于输入到Transformer的嵌入序列,其中D取决于卷积层中卷积核的数量。 学习到的时间和空间位置嵌入,被添加到每个输入token: 帧m内的所有patch都被赋予相同的时间位置,不同时间的相同位置的patch被赋予了相同的空间位置。从而使模型能够感知patch的时间和空间位置。 Space-time self-attention blocks视频序列被送到一堆时空Transformer块中。作者对 Divided Space-Time Attention做了一个小修改,将块输入和时间注意力输出之间的残差连接替换为块输入和空间注意力输出之间的残差连接。 Text encoding文本编码器架构是一种多层双向Transformer编码器,在自然语言处理任务中显示出巨大的成功。对于最终文本编码,作者使用最终层的 [CLS] token输出。 Projection to common text-video space文本和视频编码都通过单个线性层投影到一个公共维度。作者通过在两个投影嵌入之间执行点积来计算文本和视频之间的相似度。 Efficiency本文的模型具有独立的双编码器路径 ,仅需要视频和文本嵌入之间的点积。这确保了检索推理的成本较低,因为它是可索引的,即它允许使用快速近似最近邻搜索,并且在推理时可扩展到非常大规模的检索。 3.2. Training StrategyLoss在检索中,batch中匹配的文本-视频对被视为正样本对,批次中的所有其他成对组合被视为负样本对。在训练过程中,需要最小化两个损失函数,即视频到文本和文本到视频: 其中,和分别是第i个视频和第j个文本在大小为B的batch中的归一化嵌入,σ 是温度参数。 Joint image-video training在这项工作中,作者在图像-文本对和视频-文本对上进行联合训练,利用两者进行更大规模的预训练。本文的联合训练策略包括在图像和视频数据集之间的batch交替进行。由于注意力机制与输入帧的平方成比例,因此图像数据的batch相比于视频数据可以设置的更大。 Weight initialisation and pretraining作者使用在ImageNet-21k上训练的ViT权重初始化时空Transformer模型中的空间注意权重,并将时间注意权重初始化为零。残差连接的意义在于,在这样的初始化设置下,模型开始相当于每个输入帧上的ViT,从而允许模型随着训练的进行逐渐学习关注时间。 Temporal curriculum learning时空Transformer结构允许可变长度的输入序列,因此可以处理可变数量的输入视频帧。但是,如果模型仅在长度为m的视频上进行了训练,则仅在中学习时间位置嵌入。因此,将模型应用于长度为M的序列的输入视频需要添加。 Frame sampling给定包含L个帧的视频,作者将其细分为M个相等的片段,其中M是视频编码器的所需帧数。在训练过程中,作者从每个片段中统一采样一个帧。在测试时,作者对每个片段中的第i帧进行采样,以获得视频嵌入。使用步幅S 确定i的值,从而产生视频嵌入数组。这些视频嵌入的平均值用作视频的最终嵌入。 ▊ 4.实验 4.1. Pretraining Datasets在本文中,作者提出了一个新的视频-文本预训练数据集WebVid2M,上图给出了一些样本示例。 上表为不同视频-文本的预训练数据集的统计结果。 4.2. Ablation Study4.3. Curriculum strategy4.4. Comparison to the State of the Art上表展示了MSR-VTT数据集上本文方法的fine-tuning和zero-shot的text-to-video实验结果。 ▊ 5. 总结 在本文中,作者提出了一种用于文本视频检索的端到端训练的双编码器模型,该模型旨在利用大规模图像和视频字幕数据集。 ▊ 作者简介 知乎/公众号:FightingCV END |
|