01 摘要本文提出了一种统一的目标检测和分割框架Mask-DINO。Mask DINO通过添加一个支持所有图像分割任务(实例、全景和语义)的mask预测分支,扩展了DINO(DETR with Improved Denoising Anchor Boxes)。它利用DINO的查询嵌入对高分辨率像素嵌入图进行点积来预测一组二进制mask。 DINO中的一些关键组件通过共享架构和训练过程进行了扩展,以进行分割任务。Mask DINO简单、高效、可扩展,并且受益于联合大规模检测和分割数据集。实验表明,Mask-DINO在ResNet-50主干和带有SwinL主干的预训练模型上都显著优于所有现有的专门分割方法。 此外,Mask DINO在实例分割(COCO上为54.5 AP)、全景分割(COCO上为59.4 PQ)和语义分割(ADE20K上为60.8 mIoU)方面建立了迄今为止最好的结果。 02 Motivation 目标检测和图像分割是计算机视觉的基本任务。这两项任务都与定位图像中感兴趣的对象有关,但具有不同的focus级别。目标检测是定位感兴趣的对象并预测其边界框和类别标签,而图像分割则侧重于不同语义的像素级分组。此外,图像分割包括各种任务,包括实例分割、全景分割和关于不同语义的语义分割。 为这些任务开发的基于卷积的经典算法具有专门的结构,如用于目标检测的Faster RCNN,用于实例分割的Mask RCNN,以及用于语义分割的FCN,取得了显著的进步。虽然这些方法在概念上简单有效,但它们是为专门的任务定制的,并且缺乏处理其他任务的泛化能力。目前也催生出了一些能够联合处理多个任务的模型,到目前为止,HTC++仍然是COCO目标检测和实例分割排行榜上SOTA模型广泛使用的目标检测和实例分割方法。 随着进入基于Transformer的检测器的新时代,检测和分割任务会分化为不同的模型。DETR首先将Transformer引入到目标检测中。DETR是一种基于端到端查询的目标检测器,它采用一个具有二部匹配的集合预测目标。虽然DETR同时处理目标检测和全景分割任务,但其分割性能仍低于经典的分割模型。为了提高基于查询的模型的检测和分割性能,研究人员开发了用于目标检测、实例分割、全景分割和语义分割的专用模型。 在改进目标检测的努力中,DINO利用了DAB-DETR的动态锚定框公式和DN-DETR的查询去噪训练,进一步开发了对比去噪训练、混合查询选择,通过这两种方法来加速训练和提高检测性能。因此,DINO作为一个类似DETR的模型,首次在COCO目标检测排行榜上获得SOTA结果。 类似地,为了改进图像分割,MaskFormer和Mask2Former提出使用基于查询的Transformer架构来统一不同的图像分割任务,以执行mask分类。这些方法在多个分割任务上取得了显著的性能改进。然而,检测和分割模型仍然存在显著差异,这阻碍了检测和分割任务之间的任务和数据协作。例如,最先进的基于查询的实例分割模型Mask2Former仍然落后于基于HTC++和Swin-V2-G的经典模型。 解释这种性能差距的一个原因是,基于HTC的模型是在大规模检测数据集(即Objects365)上预训练的,但Mask2Former不能利用检测数据进行预训练。虽然作者相信检测和分割可以在一个统一的体系结构中相互帮助,但简单地使用DINO进行分割和使用Mask2Former进行检测的结果表明,它们不能很好地完成其他任务。此外,多任务训练甚至会影响原始任务的性能。 这自然会导致两个问题:1)为什么检测和分割任务在基于查询的模型中不能相互帮助?2)是否有可能为所有检测和分割任务开发一个统一的体系结构,以取代专门的任务? 为了解决这些问题,作者提出了Mask-DINO,它通过添加一个与box预测分支并行的Mask预测分支来扩展DINO。受其他图像分割统一模型的启发,作者重用DINO中的内容查询嵌入,对所有分割任务执行mask分类。由于DINO缺乏用于mask预测的高分辨率特征映射,作者遵循MaskFormer和Mask2Former,构建了一个从主干和Transformer编码器特征获得的高分辨率像素嵌入映射(输入图像分辨率的1/4)。Mask分支通过简单地使用像素嵌入映射点乘每个内容查询嵌入来预测二进制mask。 虽然DINO不是为像素级对齐而设计的,但作者发现重用其内容查询嵌入进行Mask预测是非常有效的。这在很大程度上归因于Transformer解码器中基于交叉注意力的特征池化,允许查询嵌入仅聚合输入图像中的相关特征。除了Mask分支,作者还扩展了DINO中Box预测的三个关键组件,以提高分割性能。 首先,提出了统一的查询选择,将Mask查询初始化为锚(anchor),从编码器密集先验中选择mask。其次,提出了针对mask的统一去噪训练来加速分割训练。第三,使用混合的二部匹配来更精确地匹配box和mask。 Mask DINO在概念上很简单,很容易在DINO框架下实现。mask预测的扩展被设计为尽可能简单,以便Mask DINO可以重用DINO中的所有算法改进,以及可以从更大的检测数据集预训练的特征表示。作者还发现,在Mask2Former中,硬约束和密集的mask注意力是不必要的。 Mask DINO表示,简单地将Transformer编码器的多尺度特征concat起来,并使用可变形注意力(deformable attention),可以产生显著的分割效果。此外,由于本文使用稀疏可变形注意力,Mask DINO在计算上是高效的。 03 方法 Mask DINO是DINO的扩展。在内容查询嵌入之上,DINO有两个分支用于框预测和标签预测。这些框会动态更新,并用于引导每个Transformer解码器中的可变形注意力。Mask DINO为mask预测添加了另一个分支,并最小限度地扩展了检测中的几个关键组件,以适应分割任务。为了更好地理解 Mask DINO,作者首先简要回顾DINO,然后介绍Mask DINO。 3.1 Preliminaries: DINODINO是一种典型的类DETR模型,由主干网、Transformer编码器和Transformer解码器组成。框架如上图所示(蓝色阴影部分,无红线)。DINO将DETR中的每个位置查询表示为4D锚定框(anchor box),该锚定框通过每个解码器层动态更新。DINO使用具有可变形注意力的多尺度特征。 因此,更新后的锚定框也用于以稀疏和柔和的方式约束可变形注意力。DINO采用去噪训练,并进一步发展对比去噪以加速训练收敛。此外,DINO还提出了一种混合查询选择方案来初始化解码器中的位置查询,并提出了一种look-forward-twice的方法来改进box梯度反向传播。 3.2 Why a universal model has not replaced the specialized models?基于Transformer的检测器和分割模型已经取得了显著的进展。例如,DINO和Mask2Former分别在COCO检测和全景分割方面取得了最好的结果。受这些进步的启发,作者试图简单地将这些专用模型扩展到其他任务,但发现其他任务的性能大大落后于原始任务。看起来,琐碎的多任务训练甚至会影响原始任务的性能。然而,在基于卷积的模型中,将检测和实例分割任务结合起来是有效且互利的。例如,HTC++在COCO实例分割中仍然排名第一。
Why cannot Mask2Former do detection well?Mask2Former的Transformer解码器是为分割任务而设计的,由于三个原因不适合检测。 首先,它的查询遵循DETR中的设计,但无法利用Conditional DETR、Anchor DETR和DAB-DETR中研究的更好的位置先验。例如,它的内容查询在语义上与Transformer编码器的特征一致,而它的位置查询只是可学习的向量,就像在vanilla DETR中一样。如果去掉它的mask分支,它就变成了DETR的一个变体,其性能不如最近改进的DETR模型。 其次,Mask2Former在Transformer解码器中采用了masked attention(带注意力mask的多头注意力)。从前一层预测的注意力mask是密集的和硬约束的,这对于框预测既不有效也不灵活。 第三,Mask2Former无法逐层显式执行box 细化。此外,它在解码器中从粗到细的mask细化未能使用编码器的多尺度特征。 Why cannot DETR/DINO do segmentation well?DETR在其架构中加入了一个分割头,以显示扩展到分割任务的潜力。然而,其性能有限。有三个原因。首先,它的分割头不是最优的。DETR允许每个查询嵌入具有最小特征图的点积来计算attention map,然后对其进行上采样以获得mask预测。这种设计缺乏查询和主干中较大的特征图之间的交互。 其次,DETR不能在每个解码器层中使用mask辅助损失。由于DETR的分割头很重,因此其结构对分割效率很低。因此,它只计算最后一个解码器层中的分割损失。第三,它不支持mask细化,因为mask位置预测无法从一层传递到下一层。 The motivation of Mask DINO使用基于卷积的模型来统一检测和分割任务已经成为一种趋势,这不仅简化了模型设计,而且促进了检测和分割之间的相互合作。作者提出Mask DINO主要有三个动机。 首先,DINO在目标检测方面取得了SOTA结果。之前的工作,如Mask RCNN、HTC和DETR已经表明,可以扩展检测模型来进行分割,并帮助设计更好的分割模型。其次,检测比实例分割相对容易。因此,box预测可以引导人们关注更有意义的区域,并为mask预测提取更好的特征。第三,DINO和其他类似DETR的模型的新改进也有助于分割任务。 例如,Mask2Former采用可学习的解码器查询,无法利用编码器中选定的前K个特征中的位置信息来指导mask预测。上图(a)(b)(c)显示第0解码器层中的Mask2Former的输出与GT mask相差较远,而mask-DINO作为region proposal输出更好的mask。Mask2Former还采用专门的mask注意力来引导模型关注感兴趣的区域。 然而,mask注意力是一个硬约束,它会忽略所提供mask之外的特征,并可能忽略后续解码器层的重要信息。此外,可变形注意力还可以更好地替代其高效性,使注意力可以应用于多尺度特征,而无需太多计算开销。 上图(d)(e)显示了Mask2Former在其第一解码器层中的预测mask和Mask DINO的相应输出。Mask2Former的预测只覆盖了不到一半的GT mask,这意味着注意力无法在下一个解码器层看到整个实例。此外,如上图(f)(g)所示,box还可以将可变形注意力引导到背景的适当区域。 3.3 Our Method: Mask DINOMask DINO采用与DINO相同的检测架构设计,只需进行最小的修改。在Transformer解码器中,Mask DINO添加了一个用于分割的Mask分支,并扩展了DINO中用于分割任务的几个关键组件。如图1所示,蓝色阴影部分的框架是原始的DINO模型,分割的附加设计用红线标记。 Segmentation branch![]() Unified query selection for maskUnified denoising for maskHybrid matchingDecoupled box prediction04 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() 05 总结参考资料[2]https://github.com/IDEACVR/MaskDINO ![]() END |
|