▊ 写在前面 在本文中,作者提出了M3P,一个多任务、多语言、多模态预训练模型 ,通过多任务预训练目标将多语言预训练和多模态预训练结合到一个统一的框架中。M3P的目标是学习通用的表示,可以将以不同方式出现的对象或以不同语言表达的文本映射到一个公共语义空间。 ▊ 1. 论文和代码地址 论文地址:https:///abs/2006.02635 代码地址:https://github.com/microsoft/M3P ▊ 2. Motivation 最近,自然语言处理(NLP)的预训练模型逐渐兴起,即通过自监督的预训练从原始文本中学习一般知识,然后通过特定任务上微调将其应用于下游任务。 1)通过多语种预训练,学习使用多语种语料库表示多语种数据; 2)通过随机将一些英语单词替换为其他语言的翻译,学习多语种多模态表示; 3)通过多任务的目标来学习这些表征,以处理多语言多模态任务。 ▊ 3. 方法 3.1. Data Stream作者使用了来自多语言语料库和多模态语料库的两种基本数据流:多语言单模态流(Multilingual Monomodal Stream) 和单语言多模态流(Monolingual Multimodal Stream) ,此外还设计了多模态代码切换流(Multimodal Code-switched Stream) ,以同时利用多语言数据和多模态数据。 Multilingual Monomodal Stream为了应用多语言预训练,作者使用多语言单模态流作为模型输入。给定任何语言的输入文本,首先通过Sentence Piece将其转换为BPE token序列。然后将每个BPE token的文本嵌入和位置嵌入相加,得到一个文本表示序列。此外,还要向每个token添加语言嵌入,以指示其语言属性。输入数据定义为: Monolingual Multimodal Stream为了应用多模态预训练,作者使用单语言多模态流作为模型输入。给出一对英文文本和图像,的文本表示序列类似于多语言单模态流的处理,并使用英语作为语言嵌入。对于图像v,作者使用Faster R-CNN来检测图像区域,并使用每个区域中相应的视觉特征作为视觉特征序列。 Multimodal Code-switched Stream作者通过代码切换(Code-switched)的方法从单语言多模态流生成多模态代码切换流,给定英语文本和图像对,代码切换语言集,以及可以将一个单词从英语翻译成任何语言的双语词典。 3.2. Pre-training Objectives为了在多语言多模态场景下对M3P进行预训练,作者设计了两种类型的预训练目标。多语言训练 的目的是从结构良好的多语言句子中学习语法或句法。多模态代码转换训练(MCT) 旨在通过共享的视觉模态学习不同的语言,从而进行视觉和非英语文本之间的对齐。 3.2.1 Multilingual TrainingMultilingual Masked Language Modeling (xMLM)与多语言BERT、XLM和Unicoder类似,该任务基于多语言语料库执行掩蔽语言建模(MLM)。在每次迭代中,每个Batch的数据由从不同语言中采样的句子组成。语言的抽样概率定义为,其中是整个多语言语料库中语言的百分比,平滑因子α设置为0.3。 3.2.2 Multimodal Code-switched Training由于缺乏非英语多模态的标记数据,该模型只能独立学习多语种和多模态。为了帮助模型在共享视觉模态下学习不同的语言表达,作者提出了三种多模态代码转换训练任务:MC-MLM、MC-MRM和MC-VLM。在训练这些任务时,作者用了α和α的比例混合多模态代码转换流 和单语言多模态流 ,为了简化符号,将混合数据流表示为。 Multimodal Code-switched Masked Language Modeling (MC-MLM)与ViLBERT和Unicoder-VL中的预训练任务不同,本任务旨在学习基于共享视觉模态的不同语言表示。混合数据流用于训练该目标。具体来说,该模型根据其周围的token 和所有图像区域,预测标题中的每个被mask的token。损失函数定义为: Multimodal Code-switched Masked Region Modeling (MC-MRM)本任务旨在学习在混合数据流中以多语言文本作为上下文的视觉表示。该任务基于剩余区域和所有字幕token 重建每个mask图像区域。作者以15%的概率随机mask图像区域。 Multimodal Code-switched Visual-Linguistic Matching (MC-VLM)本任务旨在学习具有混合数据流的多语言文本和图像之间的对齐。在的Transformer输出上应用FC层,以预测输入图像和输入的英语或代码切换文本是否语义匹配。通过将匹配样本中的图像或文本替换为从其他样本中随机选择的图像或文本,可以创建负图像标题对,损失函数计算如下: ▊ 4.实验 4.1. Dataset Description4.2. Overall Results4.3. Ablation Studies4.3.1. The Impact of MCT4.3.2. The Impact of Number of Languages in MCT4.3.3. The Impact of Proposed Tasks4.4. Expanding MCT to Fine-tuning4.5. Qualitative Studies on MCT▊ 5. 总结 作者在本文中提出了一个新的预训练模型M3P ,该模型通过多语言多模态场景的多任务预训练,将多语言预训练和多模态预训练结合到一个统一的框架中。此外,作者还提出了多模态代码转换训练(Multimodal Code-switched Training) ,以进一步缓解非英语多模态任务缺乏足够数据的问题。 ▊ 作者简介 知乎/公众号:FightingCV ![]() END |
|