【原】极坐标表示下的环视图可行驶空间边界检测

点云PCL 2023-04-06 发布于上海

展开全文

文章：Surround-view Free Space Boundary Detection with Polar Representation

作者：Zidong Cao, Ang Li, Zhiliang Xiong, Zejian Yuan

编辑：点云PCL

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。未经博主同意请勿擅自转载。

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系dianyunpcl@163.com。未经作者允许请勿转载，欢迎各位同学积极分享和交流。

摘要

基于视觉的环视图的自由空间检测对于自动泊车辅助至关重要，在这个任务中，精确的边界定位是最为关注的问题。本文提出了一种将自由空间转换为极坐标表示来推断自由空间边界的转换器框架，以端到端的方式进行回归，为了约束自由空间的整体形状，我们引入了三角形IoU损失函数，使网络可以将边界作为一个整体考虑。此外，我们提出了一个具有挑战性的全景图数据集(SVB)，并提供了一个新的边界质量指标。在SVB数据集上的实验验证了我们的方法的有效性，它优于现有的自由空间检测方法，并以显著的计算成本降低实时运行，此外，我们的方法表现出良好的泛化能力，适用于新的泊车场景。

主要贡献

基于视觉的全景环视自由空间检测是自动停车辅助系统（APA）中的一项基本任务之一，该任务是从图像输入中识别出环视图的自由空间，即360度视野中可供车辆行驶而不会碰撞的简单连接道路区域，尽管激光扫描仪常用于此任务，因为其能够捕捉准确的深度信息，但由于其显著的成本优势，基于视觉的方法仍然受到关注。在本文研究了直接从多个鱼眼相机输入拼接的环视图像中预测自由空间的方法（图1（a）-（b））。与分别在每个单独视图上应用检测并合并结果相比，从环视图像中检测更有利于APA，因为它在推断时间上具有优势，可以一次性提供整个自由空间。

图1：(a) 通过四个视角的鱼眼相机捕获的图像，分别为前、后、左、右，(b) 环视图像，(c) 自由空间边界的极坐标表示

为了促进 APA 中自由空间边界检测的发展，我们构建了一个具有丰富室内外停车场场景的具有挑战性的大规模数据集。目前的数据集，如 Cityscapes 数据集、KITTI 路标准数据集和 WoodScape 数据集，主要是关于街景的。Tongji 停车位数据集包括停车场场景，但缺乏自由空间注释。这些事实使得现有数据集不适用于研究环视自由空间检测。我们新建的数据集通过精心收集停车场景并手动注释边界注释来补充上述不足。此外，我们提供了一个度量标准来定量分析边界精度。我们的方法在我们的数据集上取得了显着的性能，并且在没有额外训练的情况下显示出对其他数据集的出色泛化能力。本文的主要贡献可以总结如下:

· 提出将自由空间重新定义为极坐标表示，显然简化了表示并增强了对边界定位的关注。

· 利用变换器框架来解决长序列预测问题。此外，我们提出了 T-IoU 损失来提高相邻预测之间的相关性。

· 引入了一个停车场景中具有边界注释的大规模数据集和一种有效的度量标准来评估边界质量。我们的方法在我们的数据集上表现良好，并且对新的停车场景显示出强大的泛化能力。

主要内容

自由空间边界的极坐标表示

为了在极坐标系下建模环视自由空间边界，我们首先将图像中心c = (xc;yc)设为极坐标系的原点，水平右方向设为极轴正方向，顺时针方向设为极角的正方向，极角以弧度计。为形成一个闭合曲线，极角被限制在[0,2π)之间变化。通过以相同的极角采样间隔对N个边界点进行采样，第i个采样点可以用(r_i,q_i)表示，其中极径r_i由到c的距离确定，极角q_i = i·Dq，其中i∈[0,N-1]。为了定性评估自由空间边界的精度，我们将极点转换为笛卡尔点，可以通过以下公式从(r_i,q_i)获得笛卡尔点(xi,yi)：

xi = xc +ri ·cos(qi);

yi = yc +ri ·sin(qi)。

最后，按顺序连接相邻点以直线形式形成一个闭合曲线，表示自由空间的边界，由边界所包围的区域被视为自由空间，极坐标系自由空间边界表示只是一个有N个元素的序列，这是参数的显著简化。

边界检测模型

图2：流程图，给定全景图像I作为输入，网络输出一个极坐标半径序列jr，表示将极半径与极角配对以获取采样点，通过连接采样点生成自由空间边界B。

图2展示了我们模型的整体流程，给定一个环视图像I作为输入，网络端到端输出一个包含一组极径的序列jr。通过分配预定的极角序列jq，得到一组采样边界点，依次连接这些点，我们可以得到预测边界B和相应的自由空间，该网络由骨干网络、Transformer和用于序列预测的前馈神经网络（FFN）组成，在骨干网络中，使用ResNet18提取低分辨率图像特征，Transformer编码器和Transformer解码器都堆叠了两个相同的层，每个编码器主要由一个多头自注意模块组成，用于模拟图像特征的关系，具有并行注意操作来生成图像嵌入，每个解码器在自注意模块后还有一个额外的多头交叉注意力模块[13,19]，用于计算与图像嵌入和序列的交互。最后，FFN通过3层感知器将Transformer的输出投影到jr中。

三角形IoU损失（T-IoU损失）

为了约束边界点的位置，一个简单的想法是使用L1损失监督预测的序列，然而，L1损失是为了单个点的精度而设计的，忽略了相邻点之间的关系和整个边界的整体形状，这导致了欠平滑和局部歧义，相反，IoU的计算将自由空间视为一个整体，并期望边界在形状和大小上表现得合理，为了利用IoU的优势，首先在地面真实边界上均匀采样，采样间隔为2Np，获得离散的N个真实极径序列，将真实序列表示为jr ^，自由空间的面积可以用无限的扇形区域表示，然而，在有限的采样角度中，仅利用一个半径的扇形区域无法适应复杂的形状，由于预测点是通过直线连接的，采样的自由空间是由共享中心点的三角形组成的，在这种情况下，我们用利用相邻两个极径的三角形面积代替极IoU中的扇形区域，根据三角形面积的计算公式S4 = 1/2 sinDq · r1r2，可以计算三角形IoU（T-IoU）如下：

实验

为了促进APA中环视自由空间检测的发展，首先要解决的问题是创建一个具有边界注释的环视图像大规模数据集，称为环视图数据集(SVB)，通过图像拼接技术将四个鱼眼相机的输入与四个视角拼接成一个以车辆为中心的鸟瞰图像。自由空间边界与车辆、行人、路障和台阶等相关，此外，标记障碍物之间的间隙主要取决于驾驶车辆是否可以安全通过。如图3所示，我们首先手动注释自由空间边界会改变其趋势的转折点，然后按顺序连接转折点以形成边界。

图3：SVB数据集的示例，红线表示自由空间边界，包括各种细长和大型障碍物，以及各种光照和停车场景

SVB数据集是从200多个视频中获取的，图像大小为1024×1024，对应于现实世界中的18×18（米）。在SVB中，室外停车场场景和室内停车场场景的比例约为80％和20％，为了增强对行人和路障等细长物体的性能，我们通过手动选择将包含细长物体的图像的比例提高到21％。此外，还包括各种照明条件和天气条件，总的来说，SVB数据集包含10632个带有自由空间边界注释的全景图像，其中训练集包含9569个图像，测试集包含1063个图像。

实现细节

在实验中，我们使用ResNet18 作为骨干网络，我们将所有图像调整为512×512，输入图像通过旋转、颜色抖动、水平翻转和垂直翻转进行增强，我们通过输入图像的对角线长度对极径进行归一化，除非在消融研究中，极径的数量被设置为360，这是根据SVB数据集的性能确定的，我们使用Adam算法[11]，将初始学习率设置为10−4，每10个时期衰减因子为0.5，批量大小为16，训练时期设置为100，为了最好地展示我们方法的简单性，我们还报告FPS和MACs，我们在一台Tesla M40 GPU上进行了所有实验。

ablation study(消融实验)

Number of sampling polar angles（采样极角数量）：由于离散采样，我们的极坐标表示法在表示自由空间边界时会失去一些细节，地面实况的极半径可以聚合成一个采样地面实况边界Bˆs，为了定量分析损失，我们计算地面实况边界B和采样地面实况边界Bˆs之间的边界绝对误差（BAE）得分，即理想的上限。

图4：(a) 重建误差分析， (b) 不同采样极角数量的影响，我们的方法在更多采样角度下预测更好

从图4(a)可以看出，采样更多的极角可以实现更高的上限，并恢复更细致的结构，当采样极角的数量超过360时，上限的提高微不足道，在图4(b)中，我们对采样极角数量从30到720进行了实验，发现输出结果在360个采样极角时表现最佳，随着采样极角数量的增加，模型接收到更精确的结构信息，并使用更多细节来预测边界，然而，当采样极角的数量过多时，边界行为过于离散，模型的容量受到挑战，无法编码这样一个繁琐的序列，导致较低的平滑度。

图5：解码器中交叉注意力模块的注意力图

Transformers中的注意力机制（Attention in transformers）：图5显示了变换器解码器中交叉注意力模块的注意力图，我们观察到，在序列中的特定极半径处，图像嵌入与自由空间边界附近可能区域之间有效地相关联，角度信息也通过位置嵌入隐式地学习到。

T-IoU 损失：我们研究了 T-IoU 损失对学习的影响，根据表1，T-IoU 损失在 BAE 方面达到了 6.94 像素，相比之下，l1 损失的 BAE 为 7.84，相差0.90 像素。这个差距表明，训练整体边界形状比仅关注隔离点更有效，此外，我们的 T-IoU 损失比极坐标 IoU 损失在 BAE 方面表现更好，提高了0.42 像素，我们将这一改进归因于更好的边界表示和考虑相邻点之间关系的因素。

图6 失败案例

失败案例：由于遮挡，我们的预测出现了失败情况，如图6所示。我们的极坐标表示无法通过从图像中心发射的射线覆盖蓝色区域。

与最先进的方法的比较

计算成本比较，在表2中，我们的方法仅有9.7 GMACs，比其他方法要小，差异主要来自处理提取特征的模块，在图7中，SegNet-Basic的解码器需要14.8 GMACs，由于一系列上采样操作而导致大量冗余。PolarMask的头部也需要15.1 GMACs，其中包括一系列卷积层。相比之下，transformers只需要0.2 GMACs来预测边界点，这极大地简化了处理过程。

图7：计算成本比较

与自由空间检测方法的比较。我们将我们的方法与以前的自由空间检测方法进行比较，这些方法将自由空间视为二元分割问题，SegNet被用于鱼眼相机自由空间检测[15]。为了实际应用，选择了SegNet的基本版本，为了分析分段方法中的边界精度，我们对分段映射进行后处理：获取最大连通区域的外边界，并将其视为预测。在表2中，我们的方法在所有指标上都优于分段方法。将这种改进归因于自由空间边界的有效极坐标表示以及对边界的注意力。在图9中，分段方法会导致虚假区域和不清晰的边界，效率低下。

图9：在SVB数据集上的定性结果与SegNet-Basic和PolarMask进行比较。五个具有挑战性的场景：(a)纤瘦的行人(b)随机路障(c)大型障碍物(d)严峻的阴影和(e)室内停车场景。我们的方法在以上场景中表现更好，并表现出很强的鲁棒性。

与边界检测方法的比较。PolarMask是为了在实例分割中预测边界而提出的，它采用中心分类和距离回归，我们去掉了PolarMask中的中心头和分类头，只保留平均池化层和回归头。在图4中，PolarMask（蓝色条）在180个采样极角下取得了最佳BAE分数，而我们的方法（绿色条）在360个采样极角下取得了最佳BAE分数。此外，在SVB数据集上，我们的方法在所有采样极角的BAE分数上优于PolarMask，当采样极角数量增加时，差距变得显著。我们将其归因于transformers的容量，它可以捕捉非局部依赖性，以满足长序列预测的需求。

在表2中，我们的方法在所有提到的指标中都比PolarMask表现更好，例如，BAE减少了2.94像素，d1提高了7.4％，我们认为这是因为transformers可以捕捉纤细的结构，并识别障碍物之间的关系。在图9（a）中，我们的方法可以清晰地识别出行人的边界（黄色框中），然而，PolarMask在行人上具有模糊的边界。类似的情况发生在图9（d）的强烈阴影（黄色框中）和图9（e）的柱子（黄色框中）。

总结

本文提出将自由空间检测转化为自由空间边界的极坐标表示，该表示明确地提高了对边界精度的关注并降低了计算成本，为了捕捉非局部依赖关系并限制预测边界的整体形状，我们采用了Transformer架构进行长序列预测，并提出了T-IoU损失进行更好的训练，此外创建了一个大规模的环视自由空间边界检测数据集，并提供了一个评估边界精度的指标，在SVB数据集上的实验表明，我们的方法可以适应各种复杂场景，并以低计算成本实时运行，我们还展示了在新的停车场场景中具有强大的泛化能力。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述：用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++：基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位