重磅干货,第一时间送达 1. Mask R-CNN升级,backbone、FPN和head都改进了 2. ROIAlign越看越迷了,得跑跑实验了 CVPR 2020,原文链接: https:///abs/1911.06667 基于PyTorch,Detectron2,原文开源链接: https://github.com/youngwanLEE/CenterMask We propose a simple yet efficient anchor-free instance segmentation, called CenterMask, that adds a novel spatial attention-guided mask (SAG-Mask) branch to anchor-free one stage object detector (FCOS) in the same vein with Mask R-CNN. Plugged into the FCOS object detector, the SAG-Mask branch predicts a segmentation mask on each detected box with the spatial attention map that helps to focus on informative pixels and suppress noise. 我们提出了一个简单而有效的anchor-free实例分割方法,称为CenterMask,在Mask R-CNN基础上使用了FCOS和SAG-Mask。插入FCOS对象检测器后,SAG-Mask分支可以使用空间注意力特征图来预测每个检测框上的分割蒙版,该图有助于将注意力集中在内容丰富的像素上并抑制噪声。 We also present an improved backbone networks, VoVNetV2, with two effective strategies: (1) residual connection for alleviating the optimization problem of larger VoVNet and (2) effective Squeeze-Excitation (eSE) dealing with the channel information loss problem of original SE. With SAG-Mask and VoVNetV2, we deign CenterMask and CenterMask-Lite that are targeted each to large and small models, respectively. 我们还提出了一种改进的backbone网络VoVNetV2,它具有两种有效的策略:(1)残差连接能缓解较大VoVNet的优化问题;(2)处理原始SE的信道信息丢失问题的eSE。借助SAG-Mask和VoVNetV2,我们分别设计了分别针对大型和小型模型的CenterMask和CenterMask-Lite。 Using the same ResNet-101-FPN backbone, CenterMask achieves 38.3%, surpassing all previous state-of-the-art methods while at a much faster speed. CenterMask-Lite also outperforms the state-of-the-art by large margins at over 35fps on Titan Xp. We hope that CenterMask and VoVNetV2 can serve as a solid baseline of real-time instance segmentation and backbone network for various vision tasks, respectively. 使用相同的ResNet-101-FPN backbone,CenterMask可以达到38.3%,以更快的速度超越了所有以前的最新方法。CenterMask-Lite在Titan Xp上也以超过35 fps的速度大幅领先于最新技术。我们希望CenterMask和VoVNetV2可以分别作为用于各种视觉任务的实时实例分割和backbone网络的坚实基准。 最近,实例分割已取得了超越对象检测的巨大进步。最具代表性的方法Mask R-CNN扩展到对象检测(例如Faster
R-CNN),已成为COCO基准测试的主导,因为可以通过检测对象然后预测每个盒子上的像素来轻松解决实例分割问题。但是,即使有许多改进Mask
R-CNN的工作,但考虑到实例分割速度的工作却很少。尽管由于YOLACT的并行结构和极其轻巧的组装过程,它是第一个实时的one-stage实例分割,但是与Mask
R-CNN的准确性差距仍然很大。因此,我们旨在通过提高准确性和速度来弥合差距。 Mask R-CNN基于two-stage对象检测器(例如,Faster R-CNN),该对象首先生成框候选,然后预测框的位置和分类,而YOLACT建立在直接检测框的one-stage检测器(RetinaNet)上,没有候选步骤。然而,这些物体检测器严重依赖于预定义anchor,该预定义anchor对超参数(例如,输入大小、纵横比、比例等)和不同的数据集敏感。此外,由于它们密集地放置锚框以提高召回率,因此过多的anchor box会导致正/负样本的不平衡以及较高的计算/内存成本。为了解决anchor box的这些缺点,近来,许多工作倾向于通过使用角/中心点从anchor变成anchor-free,与基于anchor的检测器相比,这导致了更高的计算效率和更好的性能。 因此,我们设计了一个简单但有效的anchor-free,one-stage实例分割,称为CenterMask,在Mask R-CNN基础上使用了FCOS和SAG-Mask。插入FCOS对象检测器后,我们的空间注意力引导蒙版(SAG-Mask)分支将使用FCOS检测器中的预测框来预测每个关注区域(RoI)上的分割蒙版。SAG-Mask中的空间注意模块(SAM)帮助遮罩分支将注意力集中在有意义的像素上,并抑制无关紧要的像素。 在提取每个RoI上的特征以进行掩码预测时,应考虑RoI比例来分配每个RoI池化。Mask
R-CNN提出了一个新的赋值函数,称为RoIAlign,它不考虑输入比例。因此,我们设计了一种具有比例尺的RoI分配函数,该函数考虑了输入比例,更加合适。我们还提出了一种基于VoVNet的更有效的骨干网VoVNetV2,由于其One-shot
Aggregation(OSA),它比ResNet和DenseNet具有更好的性能和更快的速度。在下图底部)中,我们发现将OSA模块堆叠在VoVNet中会使性能下降(例如VoVNetV1-99)。我们将此现象视为ResNet的动机,因为梯度的反向传播受到干扰。因此,我们将残差连接添加到每个OSA模块中以简化优化,这使VoVNet更深,从而提高了性能。 在Squeeze-Excitation(SE)通道注意模块中,发现全连接的层会减小通道大小,从而减少计算负担并意外地导致通道信息丢失。因此,我们将SE模块重新设计为eSE,用一个保持信道尺寸的FC层替换了两个FC层,从而防止了信息丢失,进而提高了性能。通过残差连接和eSE模块,我们建议使用各种规模的VoVNetV2。从轻量级VoVNetV2-19、基本VoVNetV2-39/57和大型模型VoVNetV2-99,它们对应于MobileNet-V2、ResNet-50/101和HRNet-W18/32和ResNeXt-32x8d。 借助SAG-Mask和VoVNetV2,我们设计了CenterMask和CenterMask-Lite,分别针对大型和小型模型。大量实验证明了CenterMask、CenterMask-Lite和VoVNetV2的有效性。使用相同的ResNet-101骨干,CenterMask在COCO实例和检测任务上的性能优于以前所有的最新单个模型,但速度要快得多。带有VoVNetV2-39 bakcbone的CenterMask-Lite还实现了33.4%的mask AP / 38.0%的box AP,在Titan Xp上以超过35fps的速度分别以2.6/7.0 AP的增益实现了最新的实时实例分割YOLACT。 3.1 FCOS 与FCN一样,FCOS是按像素预测方式进行的anchor-free和proposal-free的对象检测。诸如Faster R-CNN、YOLO和RetinaNet之类的最先进的物体检测器都使用预定义anchor的概念,该anchor需要进行复杂的参数调整和与训练中的IoU相关的复杂计算。如果没有anchor,则FCOS会直接预测4D向量以及特征图级别上每个空间位置处的类标签。如之前架构图所示,4D向量嵌入从边界框的四个侧面到位置(例如,左,右,顶部和底部)的相对偏移。另外,FCOS引入了centerness分支以预测像素到其相应边界框中心的偏离,从而提高了检测性能。避免了anchor的复杂计算,FCOS降低了内存/计算成本,但性能也优于基于anchor的对象检测器。由于FCOS的效率和良好的性能,我们设计了基于FCOS对象检测器的CenterMask。 3.2 架构 下图显示了CenterMask的总体架构。CenterMask由三部分组成:(1)用于特征提取的主干,(2)FCOS检测head和(3)遮罩head。遮罩对象的过程包括以下步骤:从FCOS盒头检测对象,然后以像素为单位预测裁剪区域内部的分割遮罩。 3.3 Adaptive RoI Assignment Function 在FCOS中预测了对象候选后,CenterMask使用与Mask R-CNN相同的预测框区域来预测分割蒙版。由于RoI是根据特征金字塔网络(FPN)中不同级别的特征图预测的,因此提取特征的RoI Align应相对于RoI比例以不同的特征图比例进行分配。具体而言,必须将大规模RoI分配给更高的特征级别,反之亦然。基于Mask R-CNN的two-stage检测器使用FPN中的公式1来确定要分配的特征图()。 其中, , 是每个ROI的宽度和高度。然而,式(1)不适合基于one-stage检测器的CenterMask,主要有2个原因。第一是式(1)微调自two-stage检测器,相较于one-stage检测器使用了不同的特征级别。具体地说,two-stage检测器使用了P2-P5(4-32),而ome-stage使用了P3-P7(8-128),在低分辨率上有更大的感受野。除此之外,公式1中的经典的ImageNet预训练大小224是硬编码的,并不适应特征尺度的变化。对于RoI的面积为 ,当输入尺寸为 且特征P4相对于输入尺寸而言面积较小时,将RoI分配给相对较高的示例,从而减少了小物体AP。 因此,我们将公式2定义为适用于基于CenterMask的one-stage检测器的新RoI分配函数。
其中, 是backbone中特征图最后一个层次,例如7。 是输入图像和ROI的面积。式(2)能够自适应地分配ROI pooling,根据input/ROI的面积之比来缩放。如果 k 小于最小的层次,比如3, k将会被裁剪到最小的层次。具体地说,如果RoI的面积大于输入区域的一半,则将RoI分配给最高特征级别(例如P7)。相反,虽然式(1)用 将P4分配给RoI,但式(2)确定了Kmax-5级别,这可能是RoI区域的最小特征级别,比输入大小小约20倍。我们发现,提出的RoI分配方法比式(1)改善了小对象AP,因为它的自适应和可识别比例的分配策略。从消融研究中,我们将 Kmax 设置为P5,将 Kmin 设置为P3。
|
|