分享

SimVLM:具有弱监督的简单视觉语言模型预训练

 雨夜的博客 2022-02-17

视频介绍:SimVLM:具有弱监督的简单视觉语言模型预训练

视觉语言建模将语言理解建立在相应的视觉输入中,这对于重要产品和工具的开发非常有用。例如,图像标题模型根据其对给定图像的理解生成自然语言描述。虽然这种跨模态工作存在各种挑战,但由于采用了有效的视觉语言预训练(VLP),在过去几年中,视觉语言建模取得了重大进展。这种方法旨在从视觉和语言输入中学习单个特征空间,而不是学习两个单独的特征空间,一个用于视觉输入,另一个用于语言输入。为此,现有的VLP通常利用对象检测器,如Faster R-CNN,在标记的对象检测数据集上进行训练,以隔离感兴趣的区域(ROI),并依靠特定于任务的方法(即特定于任务的丢失函数)来共同学习图像和文本的表示。此类方法需要带注释的数据集或时间来设计特定于任务的方法,因此可扩展性较低。

为了应对这一挑战,在”SimVLM:Simple Visual Language Model Pre training with Weak Supervision”中,我们提出了一种名为SimVLM的极简主义和有效的VLP,它代表”简单的视觉语言模型”。SimVLM在大量弱对齐的图像 - 文本对上使用统一目标进行端到端训练,类似于语言建模(即,与图像配对的文本不一定是图像的精确描述)。SimVLM 的简单性使得在如此扩展的数据集上进行高效训练,这有助于模型在六个视觉语言基准测试中实现最先进的性能。此外,SimVLM 学习统一的多模态表示,可实现强大的零镜头跨模态传输,而无需微调或仅对文本数据进行微调,包括开放式视觉问答、图像字幕和多模态翻译等任务。

模型和预训练过程

与采用类似于屏蔽语言建模的预训练过程(如BERT)的现有VLP方法不同,SimVLM采用序列到序列框架,并使用一个前缀语言模型(PrefixLM)目标进行训练,该目标接收序列的前导部分(前缀)作为输入,然后预测其延续。例如,给定序列”一只狗正在追逐一个黄色的球”,该序列被随机截断为”一只狗正在追逐”作为前缀,并且模型将预测其延续。前缀的概念同样适用于图像,其中图像被划分为多个”补丁”,然后这些补丁的子集作为输入顺序馈送到模型 - 这称为”图像补丁序列”。在 SimVLM 中,对于多模态输入(例如,图像及其标题),前缀是由编码器接收的图像补丁序列和前缀文本序列的串联。然后,解码器预测文本序列的延续。与先前结合了多个训练前损失的 VLP 模型相比,PrefixLM 损失是唯一的训练目标,并显著简化了训练过程。SimVLM 的这种方法在适应不同的任务设置时最大限度地提高了其灵活性和通用性。

最后,由于它在语言和视觉任务(如BERT和ViT)方面的成功,我们采用Transformer架构作为模型的主干,与之前基于ROI的VLP方法不同,它使模型能够直接接收原始图像作为输入。此外,受CoAtNet的启发,我们采用了由ResNet的前三个块组成的卷积阶段,以提取上下文相关的补丁,我们发现这比原始ViT模型中的朴素线性投影更有利。整体模型体系结构如下图所示。

file

该模型在图像文本和纯文本输入的大规模 Web 数据集上进行了预训练。对于关节视觉和语言数据,我们使用ALIGN的训练集,其中包含大约 18 亿个嘈杂的图像文本对。对于纯文本数据,我们使用T5引入的 Colossal Clean Crawled Corpus (C4)数据集,总共有 800G 个 Web 抓取文档。

基准测试结果

经过预训练后,我们在以下多模式任务上微调模型:VQA,NLVR2,SNLI-VE,COCO Caption,NoCaps和Multi30K En-De。 例如,对于 VQA,模型获取图像和有关输入图像的相应问题,并将答案生成为输出。我们按照与ViT相同的设置评估三种不同尺寸的SimVLM型号(基本:86M参数,大:307M和巨大:632M)。我们将我们的结果与强大的现有基线进行比较,包括LXMERT,VL-T5,UNITER,OSCAR,Villa,SOHO,UNIMO,VinVL,并发现SimVLM在所有这些任务中都实现了最先进的性能,尽管要简单得多。

断续器 NLVR2 SNLI-VE 可可标题 型 测试开发 测试标准 开发 测试-P 开发 测试 B@4 M C S 拉克默特 72.4 72.5 74.9 74.5 - - - - - - VL-T5 - 70.3 74.6 73.6 - - - - 116.5 - 联合 73.8 74 79.1 80 79.4 79.4 - - - - 奥斯卡 73.6 73.8 79.1 80.4 - - 41.7 30.6 140 24.5 别墅 74.7 74.9 79.8 81.5 80.2 80 - - - - 苏豪区 73.3 73.5 76.4 77.3 85 85 - - - - 联合国海事组织 75.1 75.3 - - 81.1 80.6 39.6 - 127.7 - 文文 76.6 76.6 82.7 84 - - 41 31.1 140.9 25.2 SimVLM 底座 77.9 78.1 81.7 81.8 84.2 84.2 39 32.9 134.8 24 SimVLM 大型 79.3 79.6 84.1 84.8 85.7 85.6 40.3 33.4 142.6 24.7 SimVLM 巨大 80 80.3 84.5 85.2 86.2 86.3 40.6 33.7 143.3 25.4

由于

SimVLM已经对来自视觉和文本模态的大量数据进行了训练,因此询问它是否能够执行零射跨模态传输是很有趣的。为此,我们在多个任务上检查模型,包括图像字幕、多语言字幕、开放式 VQA 和视觉文本完成。我们采用预先训练的SimVLM,并直接将其解码为多模态输入,仅对文本数据进行微调,或者不完全微调。下图给出了一些示例。可以看出,该模型不仅能够生成高质量的图像标题,还能够生成德语描述,同时实现跨语言和跨模态转移。

file

为了量化 SimVLM 的零拍摄性能,我们采用预先训练的冻结模型,并在COCO Caption和NoCaps基准测试中对其进行解码,然后与受监督的基线进行比较。即使没有监督微调(在中间行),SimVLM也可以达到接近监督方法质量的零拍摄字幕质量。

file

结论

我们提出了一个简单而有效的VLP框架。与之前使用对象检测模型和特定于任务的辅助损失的工作不同,我们的模型是使用单个前缀语言模型目标进行端到端训练的。在各种视觉语言基准测试中,这种方法不仅获得了最先进的性能,而且在多模态理解任务中也表现出有趣的零触发行为。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章