▊ 写在前面 在本文中,作者提出了HERO,一个新的大规模视频+语言综合表示学习框架。HERO以层次结构编码多模态输入,其中视频帧的局部上下文 通过多模态融合被跨模态Transformer(Cross-modal Transformer) 捕获,而全局视频上下文 由时间Transformer(Temporal Transformer) 捕获。 (ii) 帧顺序建模(Frame Order Modeling,FOM) ,其中模型预测打乱视频帧的正确顺序。 ▊ 1. 论文和代码地址 论文地址:https:///abs/2005.00200 代码地址:https://github.com/linjieli222/HERO ▊ 2. Motivation 受BERT启发,大规模的多模态预训练在视觉与语言研究领域盛行,比如ViLBERT,LXMERT,UNITER等等。然而,大多数大规模的预训练模型都是为静态图像量身定制的,而不是动态视频。 2) 预训练任务直接借鉴图像+文本预训练方法,而不利用视频的顺序性质。 3) 与现有工作中研究的不同图像域相比,当前视频模型中使用的视频数据集仅限于烹饪或叙述教学视频,不包括包含动态场景和复杂社会互动的视频源。 2) 时间Transformer 使用所有周围的帧作为全局上下文,来获取每个视频帧的顺序上下文嵌入。 2) Masked Frame Modeling(MFM) 3) Video-Subtitle Matching(VSM) 4) Frame Order Modeling(FOM) 2) 采用不同的视频类型 :单频道视频(仅限视频)和多频道视频(视频+字幕),并在DiDeMo和MSR-VTT数据集上达到了SOTA性能。 ▊ 3. 方法 3.1 Model ArchitectureInput Embedder将视频片段的视觉帧表示为,其字幕表示为,是视频片段中的视频帧数,是字幕中的句子数。对于文本嵌入器,首先将字幕句子转换为WordPieces序列,即(L是中的token数)。每个单词的最终表示是通过将其token嵌入和位置嵌入相加,然后再加一个层归一化(LN)得到。 Cross-modal Transformer为了利用字幕和视频帧之间的固有对齐,对于每个字幕句子,作者首先通过跨模态注意学习相应的token与其相关的视觉帧之间的上下文嵌入。跨模态Transformer的输出是针对每个字幕token和每个视频帧得到的上下文化嵌入序列: 其中表示跨模态Transformer,。 Temporal Transformer在从跨模态Transformer的输出中收集了所有的视觉帧嵌入后,作者使用另一个Transformer作为时间Attention,从视频片段的全局上下文中学习上下文化的视频嵌入。为了避免丢失位置信息,作者使用残差连接来添加。最终的上下文化视频嵌入的计算方法为: 其中表示时间Transformer,。与BERT直接连接所有文本token和视觉帧作为输入的编码器相比,本文的模型有效地利用字幕句子和视频帧之间的时间对齐,以更细粒度的方式进行多模态融合。在实验中,作者证明了本文的模型设计远远优于BERT。 3.2 Pre-training Tasks3.2.1 Masked Language ModelingMLM的输入包括:(1)第i个字幕的单词token;(2)与对齐的视觉帧;(3)mask索引(其中M为mask token的数量,为mask的索引)。 其中,θ表示可训练的参数。每对都从训练集D中采样。 3.2.2 Masked Frame Modeling与MLM类似,作者也对帧进行采样,并以15%的概率mask它们的视觉特征。然而,不同之处在于,MLM是在局部上下文(即跨模态Transformer的输出)上执行的,而MFM是在全局上下文(即时间Transformer的输出上执行的)。 Masked Frame Feature Regression (MFFR)MFFR学习将每个mask帧上的输出回归到其视觉特征。具体来说,作者应用一个FC层将输出帧表示转换为与输入视觉特征相同维度的向量。然后在两者之间应用L2回归: Masked Frame Modeling with Noise Contrastive Estimation (MNCE)作者使用了噪声对比估计(NCE)损失的softmax版本,而不是直接回归mask视觉特征的真实值。NCE损失鼓励模型在给定上下文的情况下,识别正确的帧。与MFFR类似,作者将mask帧的输出输入到一个FC层,将它们投影到一个向量中。 3.2.3 Video-Subtitle MatchingVSM的输入包括:(1)从所有字幕句子中采样的查询;(2)整个视频片段;(3)视频片段的剩余字幕句子。作者希望模型学习: 2) 全局对齐 ——匹配采样查询的整个视频。 在此基础上,作者使用一个查询编码器,由一个自注意层、两个线性层和一个LN层组成,从中获得最终的查询向量。 Local Alignment局部查询视频匹配得分采用点积进行计算: 对分数应用两个可训练的一维卷积滤波器,然后是一个Softmax,以生成两个概率向量,表示每个位置是ground-truth span的开始和结束的概率。在训练过程中,作者对每个视频抽取15%的字幕句子作为样本的查询,并使用交叉熵损失来预测局部对齐的开始和结束索引: 其中表示向量p的第y个元素的索引。注意,XML分别计算了每种模态的查询-视频匹配得分,最终的匹配得分是两个分数之和。 Global Alignment全局匹配分数是通过max-pooling每一帧和查询之间的余弦相似性来计算的: 作者在正、负的查询视频对上使用了一个combined hinge loss。对于每对正对,作者将或替换为同一mini-batch中的另一个样本,以构建两组负对:和。训练损失可以表示为: 其中,δ是margin超参数。最后的损失是,其中λ1和λ2是平衡这两项的超参数。 3.2.4 Frame Order ModelingFOM的输入包括:(1)所有字幕句子s;(2)视觉帧v;(3)重排序索引。作者随机选择15%的帧进行打乱,目标是重建它们的原始时间顺序,记为,其中。作者将FOM表示为一个分类问题,其中t是重排序帧的ground-truth标签。 ▊ 4.实验 4.1. Ablation Study4.2. Results on Downstream Tasks▊ 5. 总结 在本文中,作者提出了一种用于视频+语言全表示预训练的层次编码器。本文的HERO模型提出了一个层次结构,包括跨模态Transformer和时间Transformer的多模态融合。 ▊ 作者简介 知乎/公众号:FightingCV END |
|