顶刊TIP 2023！CFP：即插即用的多尺度融合模块，助力检测分割任务有效涨点！

黄爸爸好 2023-05-19 发布于上海

展开全文

转载自：CVHub

Title: Centralized Feature Pyramid for Object Detection
Paper: https:///pdf/2210.02093.pdf
Code: https://github.com/QY1994-0919/CFPNet

导读

特征金字塔网络现代识别系统中的一种基础网络结构，可有效地用于检测不同尺度的物体。SSD 是最早使用特征金字塔结构表示多尺度特征信息的方法之一，FPN 则依赖于自下而上的特征金字塔结构，通过建立自上而下的路径和横向连接从多尺度高级语义特征图中获取特征信息。在此基础上，PANet 提出了一种额外的自下而上路径，使高级特征图也可以从低级特征图中获得足够的细节信息。M2Det 通过构建多阶段特征金字塔来提取多阶段和多尺度的特征，实现了跨层级和跨层特征融合。

本文提出了一种名为中心化特征金字塔 Centralized Feature Pyramid (CFP) 的物体检测方法，本文方法基于全局显式的中心特征调节。与现有的方法不同，本文方法不仅关注不同层之间的特征交互，还考虑了同一层内的特征调节，该调节在密集预测任务中被证明是有益的。

大量的实验结果表明，CFP 可以在最先进的 YOLOv5 和 YOLOX 目标检测基线上实现一致的性能提升。

创作背景

传统的目标检测方法主要是基于卷积神经网络 (CNN) 的骨干网络，并且采用两阶段或单阶段的框架进行检测。然而，由于物体尺寸的不确定性，单一特征尺度不能满足高精度识别性能的要求，因此一些在网络中使用特征金字塔的方法被提出并实现了令人满意的结果。

特征交互是目标检测中非常重要的一部分，它能够使图像特征获得更广泛、更丰富的表达，从而使目标检测模型学习到像素/物体之间的有利共现特征。许多方法在特征交互方面进行了尝试，如使用 FPN 进行自顶向下的特征交互机制，使用 NAS-FPN 学习特征金字塔的网络结构等。

然而，以上方法都基于 CNN 骨干网络，受限于其有限的感受野，只能定位到最具有区分性的物体区域，因此最近提出了基于视觉变换器 (Vision Transformer) 的目标检测方法。这些方法将输入图像分成不同的图像补丁 (Patch)，并使用多头注意力机制来实现补丁之间的特征交互，从而获得全局的长程依赖关系。然而，这些方法的显著缺点是它们的计算复杂度很高，并且易于忽略一些重要的角落区域。

为了解决这个问题，研究人员提出了一种新的思路，即通过分析浅层特征的作用，来考虑是否需要在所有层上使用 Transformer 编码器。研究表明，浅层特征主要包含一些普遍的物体特征模式，如纹理、颜色和方向，这些模式通常不是全局的，而深层特征则反映物体的特定信息，通常需要全局信息。因此，研究者提出，不必在所有层上都使用 Transformer 编码器，可以通过适当的方式在部分层上使用 Transformer 编码器，从而提高目标检测的性能。

本文提出了一种基于全局显式集中调节方案的目标检测算法：中心化特征金字塔 Centralized Feature Pyramid (CFP)。首先，本文提出了一种空间显式的视觉中心方案，其中轻量级的 MLP 用于捕捉全局长距离依赖关系，而并行可学习的视觉中心机制则用于捕捉输入图像的局部角落区域。然后，在自上而下的方式中，本文提出了一种全局集中调节常用的特征金字塔，其中来自最深层的显式视觉中心信息用于调节前端浅层特征。与现有的特征金字塔相比，CFP 不仅能够捕捉全局长距离依赖关系，还能高效地获得全面而具有区分性的特征表示。

本文方法在 MS-COCO 数据集上进行了大量实验，结果验证了 CFP 在现有的目标检测基线 (如 YOLOv5 和 YOLOX) 上具有一致的性能提升。

论文的贡献总结如下：

提出了一种空间显式视觉中心方案，包括用于捕获全局长程依赖关系的轻量级 MLP 和用于汇集局部关键区域的可学习视觉中心。
在常用的特征金字塔中提出了一种全局集中调节方案。
CFP 在强大的目标检测基线上取得了一致的性能提升。

方法

中心化特征金字塔

CFP 能够全局明确地进行中心化层内特征调节，从而实现更全面、差异化的特征表示。

CFP 由输入图像、CNN 骨干网络、显式视觉中心 (EVC)、全局中心化调节 (GCR) 和用于目标检测的解耦头网络组成。

EVC 和 GCR 都是在提取的特征金字塔上实现的。首先，将输入图像输入骨干网络以提取五级特征金字塔，其中每层特征的空间尺寸分别为输入图像的 1/2、1/4、1/8、1/16 和 1/32。然后，使用轻量级的 MLP 架构来捕捉的全局长距离依赖性，并使用可学习的视觉中心机制来聚合输入图像的本地角区域。同时，使用 GCR 来使得特征金字塔的浅层特征能够同时从最深层的特征的视觉中心化信息中受益。最后，将这些特征聚合到解耦头网络中进行分类和回归。

显式视觉中心

显式视觉中心 (EVC) 由两个并行的块组成，其中一个轻量级的 MLP 用于捕获顶层特征的全局长程依赖（即全局信息），同时为了保留局部角落区域（即局部信息），我们提出了一种可学习的视觉中心机制，作用于上，以聚合层内的局部区域特征。这两个块的结果特征映射沿着通道维度连接在一起，作为 EVC 的输出传递到下游的识别模型中：

在实现过程中，为了进行特征平滑，我们使用了一个 Stem 的块，而不是直接在原始特征图上实现。Stem 块包括一个输出通道大小为 256 的 7x7 卷积，紧随其后的是一个批归一化层 (BN) 和一个激活函数层。

MLP

本文提出的轻量级 MLP 由两个残差模块组成：基于深度可分离卷积的模块和基于通道MLP的模块。其中，MLP 模块的输入是深度可分离卷积模块的输出。这两个模块都经过了通道缩放和 DropPath 操作以提高特征泛化和鲁棒性。

深度可分离卷积模块的输入是经过组归一化处理的特征图，深度可分离卷积可以提高特征表达能力同时减少计算成本：

通道MLP模块的输入是深度可分离卷积模块的输出，经过组归一化后再进行通道 MLP 操作：

与空间 MLP 相比，通道 MLP 不仅可以有效地降低计算复杂度，还可以满足通用视觉任务的要求。最后，两个模块都实现了通道缩放、DropPath 和残差连接操作。

LVC

LVC 是一个具有内在字典的编码器，由一个固有的码本和一组可学习的视觉中心比例因子组成。

LVC 的处理过程包括两个主要步骤：

使用一组卷积层对输入特征进行编码，并使用 CBR 块进行进一步处理；
将编码后的特征通过一组可学习的比例因子与固有码本相结合。

然后，使用一个完全连接层和一个 1×1 卷积层来预测突出的关键类特征。最后，将来自 Stem 块的输入特征和比例因子系数的局部角区域特征进行通道乘法和通道加法。

全局集中特征规范

全局集中特征规范 Global Centralized Regulation (GCR) 用于在整个特征金字塔上实现跨层特征规范化。

为了提高跨层特征规范化的计算效率，首先在特征金字塔的顶层 (）上实现空间显式视觉中心 (EVC），然后使用得到的包含空间显式视觉中心的特征来同时调整所有前面的浅层特征（如）。在实现中，将深层特征上采样到与低层特征相同的空间尺度，然后沿通道维度进行拼接，将拼接后的特征通过 1×1 卷积降采样到 256 个通道。这样，就能够在特征金字塔的每一层上显式地增加全局表示的空间权重，从而实现全面而有区分度的特征表示。

实验

EVC 方案提升效果最好，YOLOv5-L 和YOLOX-L 的 mAP 分别提高了 1.4%。

轻量级 MLP 结构不仅速度更快，而且在长程依赖捕捉方面表现更好，其 mAP 指标比 YOLOX-L 模型提高了 1.3%。

与 Transformer 方法相比，MLP 不仅具有高精度，而且占用的内存更少。

白色框表示遮挡、光照影响或物体尺寸过小等因素导致的漏检；红色框表示由于上下文语义关系不足而导致的检测错误；黄色框表示物体分类错误。第一行展示了 YOLOX-L 在“斑马”处由于距离因素未能完全检测到物体，而 EVC YOLOX-L 部分检测到了该物体，证明了 EVC 在某些密集检测任务中对小物体检测非常有效。第二行展示了 YOLOX-L 未能完全检测到柜子里的“杯子”，而 EVC YOLOX-L 通过使用 MLP 结构来捕捉物体特征的长距离依赖性，缓解了这个问题。最后一行展示了 CFP YOLOX-L 在复杂场景下表现更好，使用 GCR 来调整特征并解决分类问题。

总结

本文介绍了一种基于全局显式集中特征规范的对象检测方法 CFP。该方法首先提出了一种空间显式视觉中心方案，其中使用轻量级 MLP 来捕捉全局长程依赖，并使用并行可学习的视觉中心来捕捉输入图像的局部角区域。基于所提出的 EVC，该文进一步提出了一种自上而下的特征金字塔的全局集中特征规范方法。与现有方法相比，CFP 不仅具有捕捉全局长程依赖的能力，还可以高效地获得全方位的、具有判别力的特征表示。实验结果表明，CFP 在 MS-COCO 数据集上具有优异的表现。

本文提出的方法是一种通用方法，不仅可以提取层内特征的全局长程依赖，还可以尽可能地保留局部角区域信息，这对于密集预测任务非常重要。因此，作者在未来将进一步开发先进的层内特征规范方法，以进一步提高特征表示能力。