【原】端到端多模态理解的MDETR调制检测

小白学视觉 2021-05-15

展开全文

重磅干货，第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

多模态推理系统依靠预先训练的目标检测器从图像中提取感兴趣的区域。然而，这个关键模块通常用作一个黑盒，它独立于下游任务进行训练，并且使用固定的对象和属性词汇表。这使得这类系统很难捕捉以自由形式文本表达的视觉概念的长尾。在本文中，作者提出了MDETR，一种端到端调制检测器，用于检测基于原始文本查询(如标题或问题)的图像中的对象。在模型的早期阶段，作者使用一个基于变压器的架构，通过融合两种模式来共同推理文本和图像。作者在1.3M文本-图像对上预先训练该网络，从已有的多模态数据集中挖掘，文本中的短语和图像中的对象之间有明确的对齐。然后，作者对几个下游任务进行微调，如短语基础、引用表达理解和分割，在流行的基准上获得最先进的结果。作者还研究了作者的模型作为一个对象检测器在给定的标签集上的效用，当微调在几个镜头设置。作者展示了作者的训练前方法提供了一种处理对象类别长尾的方法，这些类别只有很少的标记实例。作者的方法可以很容易地扩展到视觉问答，在GQA和cleverr上获得具有竞争力的性能。

代码链接：https://github.com/ashkamath/mdetr

论文创新点

作者的贡献如下:

作者介绍了一个端到端文本调制检测系统派生的检测器。
作者证明了调制检测方法可以无缝地应用于解决短语基础和指称表达理解等任务，使用具有合成和真实图像的数据集在这两种任务上设置了新的艺术状态。
作者表明，良好的调制检测性能自然转化为下游任务性能，例如在视觉问答、参考表情分割和少镜头长尾目标检测上实现竞争性能。

框架结构

MDETR使用卷积主干提取视觉特征，使用RoBERTa等语言模型提取文本特征。这两种模式的特征被投射到一个共享的嵌入空间，连接和馈送到一个变压器编码器-解码器，它预测对象的边界框和它们在文本中的基础。

在MDETR预处理训练过程中，训练模型检测问题中提到的所有对象。为了将其扩展为问答，作者除了提供对象查询外，还提供特定于QA的查询作为转换器解码器的输入。作者用专门的头来处理不同类型的问题。

实验结果

作者对注释的组合产生了如下示例:手腕上戴着手表、穿着灰色衬衫的人。另一个穿蓝色毛衣的人。第三个人穿着灰色外套，围着围巾。作者为这个标题显示了模型的预测。它能够关注图像中所有的物体，然后根据文本对它们进行消歧。该模型被训练为预测短语的根作为正标记跨度，正如作者在图中可以看到的，正确地指的是三个不同的人。