【原】【科研】六篇精选论文，洞悉行人检测

知识分享家 2021-06-03

展开全文

AI研习图书馆，发现不一样的精彩世界

论文精选

行人检测是计算机视觉领域中的一个热门研究课题，也是许多工业应用中的关键问题，包括自动驾驶系统和视频监控系统，并且需要行人检测算法具有高精度和实时性，如今广泛应用于智能驾驶、智能安防等热门领域，前景与挑战并存。

【1】Center and Scale Prediction: A Box-free Approach for Pedestrian and Face Detection

论文：https:///abs/1904.02948
代码： https://github.com/liuwei16/CSP

论文简介：目标检测通常需要传统的滑动窗口分类器或现代深度学习方法中基于锚框的预测。但是，这些方法中的任何一种都需要在boxes中进行繁琐的配置。在本文中，作者提供了一个新的视角，即将检测对象作为高级语义特征检测任务来激发。像边缘，拐角，斑点和其他特征检测器一样，建议的检测器在整个图像上扫描特征点，因此自然适合进行卷积。

但是，与这些传统的低级功能不同，建议的检测器需要更高级别的抽象，也就是说，作者正在寻找存在对象的中心点，并且现代深度模型已经能够实现这种高级语义抽象。此外，像斑点检测一样，作者还可以预测中心点的尺度，这也是一个简单的卷积。因此，在本文中，通过卷积将行人和面部检测简化为直接的中心和规模预测任务。

这样，所提出的方法共享box-free设置。尽管结构简单，但它在包括行人检测和人脸检测在内的几个具有挑战性的基准上都具有竞争优势。此外，执行了跨数据集评估，证明了所提出方法的出色泛化能力。

论文贡献：本文提出了一个新的解决行人检测的视角，将目标检测理解为高级语言特征检测任务，像边缘，拐角，斑点和其他特征检测器一样，建议的检测器在整个图像上扫描特征点，因此自然适合进行卷积。但是，与这些传统的低级特征检测器不同，建议的检测器用于更高级别的抽象，也就是说，正在寻找存在对象的中心点。此外，类似于斑点检测，还预测了中心点的尺度。

然而，考虑到它的强大功能，但是不像传统的斑点检测那样处理图像金字塔来确定比例，而是通过在全卷积网络（FCN）上进行一次直接卷积来预测对象比例。结果，行人和面部检测通过卷积被简单地表述为简单的中心和比例预测任务。所提出的方法的总体流程，表示为基于中心和规模预测（CSP）的检测器。这项工作的主要贡献如下：

展示了一种新的可能性，即行人和人脸检测可以通过卷积简化为直接的中心和尺度预测任务，从而绕开了基于锚框的探测器的局限性，并且摆脱了基于最近的关键点配对的检测器的复杂后处理
CSP检测器在两个具有挑战性的行人检测基准（CityPersons和Caltech）上达到了最新的最佳性能，并且在最受欢迎的人脸检测基准之一上也达到了竞争性能
进行跨数据集评估时，建议的CSP检测器具有良好的泛化能力

论文指标：作者在行人数据集Caltech, Cityperson数据集上做了实验，使用False Positive Per Image(FPPI)作为评估指标。CSP方法在Caltech数据集上的Reasonable、All、Heavy Occlusion状态下FPPI指标分别是最好的3.8%、54.4%、36.5%，在CityPerson数据集上的Reasonable、Heavy Occlusion状态下FPPI指标分别是的11.1%、49.3%。

【2】Scale Match for Tiny Person Detection

论文：https:///abs/1912.10664
代码：https://github.com/ucas-vg/TinyBenchmark

论文简介：论文提出了一个新的benchmark, TinyPerson, 其中包含了很多小的人体目标，另外，作者通过实验发现，在检测任务中，pre-training和detector训练数据之间的mismatch会导致检测器性能下降，因此提出了一种Scale Match手段来align两部分的数据集以提升检测器性能。

论文贡献：为了检测微小的人，作者提出了一种简单而有效的方法，称为“规模匹配”。本文方法的直觉是对齐用于预训练的数据集的对象比例和用于检测器训练的对象比例。规模匹配的本质是它可以更好地研究和利用微小规模的信息，并使卷积神经网络（CNN）对于微小对象表示更为复杂。本文工作的主要贡献包括：1.在海上快速救援的背景下，作者引入了TinyPerson，并对野外微小物体检测提出了巨大挑战。

据悉，这是具有远距离背景的远距离人检测的第一个基准。Train/val注释将公开发布，并将建立在线基准以进行算法评估。2.作者全面分析了有关小人物的挑战，并提出了尺度匹配方法，目的是使网络预训练数据集和检测器学习数据集之间的特征分布保持一致。3.提出的比例匹配方法提升了最先进的检测器（FPN）5%的性能。

论文指标：本文提出的方法在COCO上相比其他方法取得了最好的表现AP50为29.21。

【3】Bi-box Regression for Pedestrian Detection and Occlusion Estimation

论文：http://openaccess./content_ECCV_2018/
代码： https://github.com/rainofmine/Bi-box_Regression

论文简介：与通用目标检测相比，遮挡情况在行人检测中更为普遍，为此也是行人检测领域最广为关注的问题之一，对于遮挡情况下的行人检测，主要有两种思路：一是对目标候选框分成不同part逐一处理、区别对待再加以特征融合；二是从loss的角度使得目标候选框对相互遮挡的情况更具判别性。

目前，主流的行人检测算法大多基于两阶段的检测器框架，本文也不例外，但另辟蹊径，通过让网络同时输出目标候选框的可见部分，指导网络在学习的过程中对遮挡情况下的行人目标更具有判别力，实验表明该思路对严重遮挡情况下的行人检测十分有效。

论文贡献：本文方法遵循Fast R-CNN检测框架。为了处理遮挡问题，本文提出利用一个网络同时进行行人检测和遮挡估计，具体而言就是让网络并行两个分支，分别输出两个bounding box，一个是完整的行人框，另一个是行人的可见部分。

如图所示，前者为红色框后者为蓝色框，对于没有行人目标的候选框而言，则可见部分分支的输出要尽量逼近候选框的中心。整个方法基于Fast R-CNN检测框架，首先产生目标候选框，将图像和目标候选框输入卷积神经网络，然后通过RoI pooling提取每个目标候选框的特征，对这些特征进行分类和回归，分别得到两个box。本文的贡献包括三个方面：

提出了一种bi-box regression方法，通过学习由两个分支组成的深层CNN（一个用于全身估计，另一个用于可见部分）来实现行人检测和遮挡的同时估计
提出了一种训练策略，以改善两个分支之间的互补性，以便可以融合其输出以提高行人检测性能
预测行人框的可见部分是可行的，并可以带来整体行人检测的性能提升；训练时，结合遮挡程度来定义高质量的正样本，可以为训练带来帮助，不失为一种非常经济有效的提升性能的trick

论文指标：在Caltech、CityPerson数据集上使用False Positive Per Image(FPPI)作为评估指标，Reasonable、Partial、Heavy Occlusion状态下FPPI指标分别是最好的7.4%、13.3%、44.4%，在CityPerson数据集上的Reasonable、Heavy、All状态下FPPI指标分别是的11.24%、44.15%，43.41%

【4】Repulsion Loss: Detecting Pedestrians in a Crowd

论文：http:///abs/1711.07752
代码：https://github.com/rainofmine/Repulsion_Loss

论文简介：在行人检测中，人群被遮挡的情况非常常见，原因是行人经常聚集在一起，互相遮挡。人群遮挡的主要影响是增加了行人定位的难度。例如，当目标行人T与另一个行人B靠的比较近时，探测器容易混淆，因为这两个行人具有相似的外观特征。结果，预测框本来应该是定位到T但是结果可能会移动到B，从而导致定位不准确。更糟糕的是，最终结果需要通过非最大值抑制（NMS）进一步处理，最初将边界框从T移到B，NMS后可能会被B的预测框所抑制，使T变成漏检。

也就是说，人群遮挡使检测器对NMS阈值敏感：较高的阈值会带来更多的误检，而较低的阈值会导致更多的漏检。行人检测中遮挡分为两种类型，一种是由于非目标造成的遮挡，文中作者称为Reasonable-occlusion，另外一种是由于也是需要检测的目标造成的遮挡，作者称为Reasonable-crowd。对于前一种类型遮挡，很难有针对性的办法去解决，最好的办法也就是使用更多的数据和更强的feature。但是对于后一种类型的遮挡，现在的pipeline其实并没有很好充分利用信息。

主要贡献：针对行人检测中的遮挡问题，本文提出了一种新的损失函数，专为遮挡行人检测而生，用来约束检测器的提议区域，可以有效提升遮挡行人的检测精度。

作者提出Repulsion loss函数定义如下：

论文总结：本文从分析数据集出发，找到遮挡对于检测器性能影响的具体情况，借助磁铁的同性相吸异性相斥的思想提出了带有排斥项的RepLoss。其主要想法在于目标物体的吸引损失并不足以训练出最优的检测器，来自周围物体的排斥损失同样至关重要。RepLoss 专为行人检测精心设计，尤其提升了密集场景的检测性能。

【5】Pedestrian Detection in Thermal Images using Saliency Maps

论文: https:///abs/1904.06859

论文简介：热图在夜晚或者其他光照条件差的情况下检测行人效果很好，但是在白天效果却很差。为了解决热图在白天效果差的问题，大多都是融合热图和Rgb图。而作者却是通过用热图的显著图来对热图增强，以便进行更好的检测，尤其是在白天的情况下，只用了热图，没用rgb图，模型最好的表现相对于baseline的白天和黑夜的情况，miss rate分别降低了13.4%和19.4%。

主要贡献：

第一次使用显著图来提升在热图上做行人检测的性能
开源了像素级别的注释

论文总结：白天的时候，人与周围环境很难区分。因为显著图丢弃了所有的在热图里的语义信息，所以如果只用显著图的话就很有问题，故采用同时输入显著图和热图来训练，即用显著图来增强热图来训练。做法也很简单，就是用提取的显著图（单通道）来替换3通道的热图的一个通道，如图1(a)。这样这个三通道的新图既保留了原始热图的语义信息，又通过显著通道表明了图片中的显著部分。然后将这个新的3通道的图片投入faster r-cnn进行训练，如图1（b）。

研究了两种最先进的深度显著性网络：

PiCA-Net是像素级别的语义注意力网络，会为每一个像素都生成与其他每一个像素点的相关性的注意力图(attention map)。使用双向LSTM(Bidirectional LSTM)来在一个像素点水平和垂直方向进行扫描获取全局语义。用卷积神经网络在这个像素点邻近区域执行获取局部语义。最后用U-Net结构来层级地（hierarchically）整合PiCA-Nets获得显著目标检测。

R3-Net使用Residual Refinement Block(RRB)循环迭代地学习gt与显著图之间的残差。RRB在每次循环迭代时选择性的利用低层特征与高层特征来精细化显著图，具体就是通过将之前的学习到的显著图添加到学习到的残差上进行精细化

【6】Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting

论文：http://openaccess./content_ECCV_2018
代码：https://github.com/VideoObjectSearch/ALFNet

论文简介：尽管更快的两级检测器已经见证了行人探测精度的显著提升，但对于实际应用仍然很慢。一种解决方案是简化这种工作流程作为单级检测器。然而，当前的单级检测器（如SSD）在常见的行人检测基准上没有提供竞争准确性。本文是一个成功的行人检测器，享有SSD的速度，同时保持Faster R-CNN的准确性。具体而言，本文提出了一种结构简单并且有效的模块，称为渐近定位拟合（ALF），它叠加了一系列预测器，可以逐步直接演化SSD的默认锚框，从而改进检测结果。

因此，在培训期间，后者预测器可以享受更多更优质的正例样本，同时可以通过增加IoU阈值来开采更难的负例。最重要的是，本文设计了一个高效的单级行人检测架构（ALFNet），在CityPersons和Caltech这两个最大的行人检测基准上实现了最先进的性能，从而产生了一个极具吸引力的行人检测器。

主要贡献：R-CNN 计算的准确度比较高，但是速度很慢，本文提出了ALF，叠加了一系列的预测器，可以逐步直接演化SSD的默认锚框，从而改进检测结果，而且有效的提高了速度。

论文总结：在本文中，作者提出了一种简单但有效的单级行人探测器，在比最先进的方法执行速度更快的同时实现了竞争精度。在骨干网络的顶部，提出渐近定位拟合模块，逐步将锚箱精细化为最终检测结果。这种新颖的设计灵活且独立于任何骨干网络，不受单级检测框架的限制。因此，将提出的ALF模块与其他单级检测器（如YOLO 和FPN）结合起来也很有意思，将在未来进行研究。

最后，祝大家炼丹愉快，科研顺利~~