大盘点 | 2020年5篇目标检测算法最佳综述

taotao_2016 2021-01-23

展开全文

作者丨Cynthia Yawain

编辑丨极市平台

本文为极市平台原创整理。

引言

在过去的一年中，计算机视觉领域出现了许多优秀的工作，并推动了相关领域的技术发展与进步。去年上半年，极市曾盘点过计算机视觉领域综述论文，并进行了分类整理，得到了很多读者的支持。因此，在2021年初，我们对2020年出现的全部计算机视觉综述论文进行了分方向梳理，希望能帮助大家学习进步。本文是第一篇，目标检测方向。

注：文章将同步更新于Github上，欢迎大家 star/fork（点击阅读原文即可跳转）：
https://github.com/extreme-assistant/survey-computer-vision

综述一

标题：Deep Domain Adaptive Object Detection: a Survey（深度域适应目标检测）
作者：Wanyi Li, Peng Wang
单位：中国科学院自动化研究所
链接：https:///abs/2002.06797

本文共梳理了46篇相关文献，由中科院自动化所学者发布。基于深度学习(DL)的目标检测已经取得了很大的进展，这些方法通常假设有大量的带标签的训练数据可用，并且训练和测试数据从相同的分布中提取。然而，这两个假设在实践中并不总是成立的。深域自适应目标检测(DDAOD)作为一种新的学习范式应运而生。本文综述了深域自适应目标检测方法的研究进展。

深度域适应目标检测算法概述：

综述二

标题：Foreground-Background Imbalance Problem in Deep Object Detectors: A Review（深度目标检测器中前景-背景不平衡问题综述）
作者： Joya Chen, Tong Xu
单位： 中国科学技术大学
链接： https:///abs/2006.09238

本文研究了不平衡问题解决方案的最新进展。分析了包括一阶段和两阶段在内的各种深度检测器中不平衡问题的特征。将现有解决方案分为两类：抽样和非抽样方案，并在COCO上进行了实验对比。

上图总结了用于解决各种对象检测框架中的前景-背景不平衡问题的不同解决方案（即基于anchor-based one-stage, anchor-free onestage, two-stage的方法）。这些解决方案包括小批量偏差采样，OHEM，IoU平衡采样，人为丢失，GHM-C，ISA，ResObj，免采样，AP丢失，DR丢失。文章在检测管道中可视化它们的使用范围。

上图为前景-背景不平衡问题的不同解决方案的比较。文章通过准确性（AP），相对准确性改进（∆AP），超参数的数量（参数）和效率（速度）进行了比较。

综述三

标题：A Review and Comparative Study on Probabilistic Object Detection in Autonomous Driving（自动驾驶中的概率目标检测方法综述与比较研究）
作者：Di Feng,Ali Harakeh,Steven Waslander,Klaus Dietmayer
单位：乌尔姆大学、多伦多大学
链接：https:///abs/2011.10671

近年来，深度学习已成为实际的目标检测方法，并且提出了许多概率目标检测器。然而，关于深度目标检测的不确定性估计尚无总结，而且现有方法不仅建立在不同的网络上架构和不确定性估算方法，而且还可以使用各种评估指标对不同的数据集进行评估。结果，方法的比较仍然具有挑战性，最适合特定应用的模型选择也是如此。本文旨在通过对现有的用于自动驾驶应用的概率目标检测方法进行回顾和比较研究,来缓解这一问题。

下图为城市驾驶场景中概率对象检测的概念图。使用分类概率对每个对象进行分类，并使用置信区间预测其边界框。RGB相机图像来自BDD100k数据集。

不确定性估计在自动驾驶中的应用及实例参考：

最先进的概率目标检测器中通常包含的关键构建块的插图，包括基础网络，检测头和后处理阶段。架构图下方还列出了每个构件的可能变体。2D图像上的输出检测结果显示为类别概率（橙色），边界框平均值（红色）和边界框角协方差矩阵的95％置信度等值线（绿色）。

概率目标检测器概述：

通过测试BDD验证数据集上的检测器，不进行数据集偏移的评估。将所有七个动态对象类别的结果取平均值。对于NLL，较低的值表示较好的性能。

综述四

标题：An Overview Of 3D Object Detection（三维目标检测技术综述）
作者：Yilin Wang, Jiayi Ye
单位： 阿尔伯塔大学
链接：https:///abs/2010.15614

本文共梳理37篇相关文献。由阿尔伯塔大学学者发布。点云3D对象检测最近受到了广泛关注，并成为3D计算机视觉社区中一个活跃的研究主题。然而，由于点云的复杂性，在LiDAR（光检测和测距）中识别3D对象仍然是一个挑战。行人，骑自行车的人或交通锥等物体通常用稀疏点表示，这使得仅使用点云进行检测就相当复杂。在这个项目中，我们提出了一个使用RGB和点云数据来执行多类对象识别的框架。我们使用现有的2D检测模型来定位RGB图像上的感兴趣区域（ROI），然后在点云中进行像素映射策略，最后将初始2D边界框提升到3D空间。我们使用最近发布的nuScenes数据集（包含许多数据格式的大规模数据集）来训练和评估我们提出的体系结构。

YOLO的3D点云中的对象检测示例：