【原】MURAL：消除预训练模型的语言限制！Google提出跨语言的多模态、多任务检索模型MURAL

我爱计算机视觉 2021-10-02

展开全文

详细信息如下：

论文链接：https:///abs/2109.05125v1
项目链接：未开源

导言：

图像标题对和翻译对都提供了学习语言表示和语言之间联系的方法。作者在 MURAL（MUltimodal, MUltitask Representations Across Languages，跨语言的多模式的多任务表示）中使用这两种类型的对来解决两个任务：1)图像文本匹配 2）翻译对匹配 。

通过聚合数十亿个翻译对，MURAL扩展了ALIGN模型[1]的性能和泛化性。当使用相同的编码器时，MURAL在多个数据集上的跨模态检索性能超过ALIGN。

更重要的是，MURAL大大提高了资源不足的语言的性能，这表明文本-文本学习可以克服这些语言缺乏的图像-标题样本的问题。例如，在Wikipedia Image-Text数据集上，基于8种资源不足的语言，MURAL-Base平均提高了8.1%，在微调时平均提高了6.8%。

Motivation

图像的多语言字幕提供了语言之间间接但有价值的关联，为了促进这一领域的发展，作者提出了一个MURAL预训练模型。之前的工作大多是训练一个具有多任务训练目标的交叉编码器模型，但是这样做其实并不高效，并且需要平衡模型中的各个loss。相比之下，多模态对偶编码器可以直接在有噪声的、大量的图像标题数据集上学习，并使用基于双向检索的简单损失。

本文提出的MURAL结构如上图所示，通过结合图像-文本匹配和文本-文本匹配任务，同时学习语言和图像的编码器，并使用对比损失来训练双编码器模型。提高资源不足的语言的性能，在之前是不可行的，因为之前的多语言图像文本数据集（如：Multi30k，STAIR），只支持资源充足的语言。然而，最近涵盖了108种语言的Wikipedia Image-Text (WIT)数据集的提出，解决了这一问题。

MURAL提高了在资源充足的语言上的Zero-shot图像-文本检索性能，并且显著提高了在资源不足的语言上的性能。对于XTD数据集，MURAL在recall@10指标上平均提高了4%。在WIT zero-shot中，MURAL对9种资源充足的语言的recall平均提高了1.7%，对8种资源不足的语言的recall平均提高了8.1%。

通过实验，作者表明，双编码器模型可以远远超过交叉编码器baseline模型。在Multi30k数据集中，本文最大的模型MURAL-Large比M3P模型，在4种语言上的平均召回率提高了47.7%。在微调设置下，基于Multi30k数据集，MURAL-Large比UC2的平均召回率提高了5.9%。

方法

ALIGN是一个多模态双编码器（如上图所示），它在一个共享的embedding空间中学习图像和文本表示。ALIGN的编码器通过normalized softmax loss在图像文本对上从头进行训练。这种损失函数使得模型拉近正图像-文本对，同时拉远负图像-文本对之间的距离。

ALIGN在多个数据集上实现了SOTA的性能；然而，训练它的Alt-Text数据严重倾向于资源充足的语言（如上图所示）。这种不平衡降低了资源不足的语言的对齐表示能力；因此，作者在本文中通过使用文本-文本翻译对来解决这个问题。

2.1 MURAL

MURAL具有多任务对比学习目标，为图像文本增加文本对比损失。MURAL通过两个任务来训练：图像-文本（i2t）匹配和文本-文本（t2t）匹配。文本编码器在这两个任务之间共享，使得多语言学习从文本-文本任务转移到跨模态表示。损失函数是这两个任务的损失的和。

Weighting of i2t and t2t tasks

在损失函数中对i2t和t2t任务进行加权可以使任务保持平衡。作者进行了对这两个任务进行不同的权重的实验；本文的主要重点是跨模态检索，所以图像-文本任务的权重需要高于文本-文本任务。损失函数设置如下：

上面式子中的每个损失函数计算如下：

其中，τ在实验中设为0.01；为余弦相似度，计算如下：

Task-specific projection heads

在计算输入之间的余弦相似度之前，对编码器表示进行转换的特定于任务的投影head可以改进对比性学习的性能。在MURAL中，作者在文本编码器上使用两个单层的、特定于任务的投影head：一个转换的embedding用于图像-文本对比损失，另一个转换的embedding用于文本-文本对比损失

Fine-tuning: single-task vs. multi-task

MURAL的主要目标是通过学习图像-文本和文本-文本对来提高Zero-Shot的性能。然而，微调对任何给定数据集的性能都有很大的影响。经过初步实验，作者发现使用图像-文本对的单任务微调的性能略优于使用联合字幕的多任务微调的性能。

2.2 Model variants

在 MURAL-BASE上，对于图像编码器，作者选用了EfficientNet-B5；对于文本编码器，作者选用了BERT-Base。在 MURAL-LARGE上，对于图像编码器，作者选用了EfficientNet-B7；对于文本编码器，作者选用了BERT-Large。

2.3 Baseline Strategies

Translate-train

为了减少对英语的严重bias，并支持其他语言对图像-文本对进行模型训练，作者使用NMT系统将英语文本翻译成其他语言来人工创建了图像-文本对。然后，这些额外的对被用来训练模型。

Translate-test

另一种策略是训练一个高性能的英语模型，然后将非英语输入转换为英语，然后进行编码，在测试时进行跨模态检索。这两种策略都高度依赖于NMT系统的质量，它所支持的语言，同时也会带来额外的成本和复杂性。

实验

3.1. Multi30k and MSCOCO

上表比较了本文方法和其他方法在两个数据集上的性能。

3.2. Wikipedia Image Text Results

上表显示，在资源充足的语言上，与ALIGN-BASE相比，MURAL-BASE获得了更好的Zero-Shot性能，在代表性不足的语言上也取得了很大的提升。

3.3. XTD

如上表所示，ALIGN和MURAL都获得了巨大的性能增益。

3.4. Crisscrossed Captions

在CxC图像文本数据集上，ALIGN和MURAL都取得了不错的性能。

CxC图像文本数据集上的相关性结果如上表所示。

3.5. Embedding Visualization

上图展示了LaBSE和MURAL两个模型在二维空间中的embedding图。

总结

英语为学习多语言表示提供了一个起点，因为相比于其他语言，英语使用更为广泛，英语与其他语言配对也更容易收集。作者利用这些翻译对来改进跨模态表示中多语言输入的处理。

通过对比学习在大规模数据集上训练简单的双编码器模型，本文的模型在所有语言中获得了更强大的检索性能——特别是资源不足的语言。本文的错误分析还表明，MURAL有助于增加检索实例的文化特异性和多样性。在CxC的结果也表明，MURAL的改进可能来自于在不同的任务学习过程中更好的校准。

参考文献

[1]. Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

作者介绍

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END

欢迎加入「图像字幕」交流群👇备注：cap

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：我爱计算机视觉 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章

我爱计算机视觉

关注对话

TA的最新馆藏

综述 | 基于 Transformer 网络的多模态学习
超200+篇文献！一文知晓"伪装场景理解"领域近况
当AIGC遇见灌篮高手，一秒钟让动漫/艺术人物在虚拟世界中重现
全景鱼眼相机+俯视+深度学习：封闭场景视频监控的好选择
SAM 模型真的是强悍到可以“分割一切”了吗？
我在Github上建了一个项目快1.2K stars了，你应该也需要！

喜欢该文的人也喜欢更多

热门阅读换一换