1、简介随着自动驾驶、机器人系统和虚拟现实的发展,2D 和 3D 领域的目标检测变得越来越重要。 通过各种数据表示(例如,单目图像、立体相机和 LiDAR 点云)在 3D 目标检测方面取得了很大进展。与从 2D 图像中检测 3D 目标相比,LiDAR 点云在检测 3D 目标中发挥着关键作用,因为它包含相对精确的深度和 3D 空间结构信息。 基于 LiDAR 的 3D 目标检测器大致可分为两大类:
与仅 尽管如此,作者观察到 因此, 为此,作者通过语义 具体来说,在每个 在获得更具判别性的关键点之后,挑战将是如何通过关键点有效地整合 作者有2个需求:
具体来说,首先采用 3D 稀疏卷积对体素化点云进行编码。然后,提出了一个快速 本文还提出了一种基于注意力的残差 主要贡献总结如下:
2、相关方法2.1、Point-Based 方法一般来说, 为了减少 与常见的 虽然基于点的方法有可能实现更准确的检测,但时间复杂度和内存消耗问题无法妥善解决,这限制了它们的进一步发展。 2.2、Voxel-Based 方法基于
尽管基于 2.3、Point-Voxel Hybrid方法为了同时实现效率和准确性,
在本文中提出了一种语义引导的 2.4、LiDAR-Camera Fusion方法最近,已经提出了许多多模态工作来探索不同传感器数据的融合以进行 3D 目标检测。
2.5、注意力机制在过去的几年中,注意力机制在许多 然而,这些方法只探索 3、本文方法3.1、概览不像以往的工作,作者认为
为此,提出了
3.2、Voxel编码器和三维区域建议网络首先,将无序点云转换为 3D Voxel CNN通过平均 3D Region Proposal Network在 3.3、前景点采样作者的动机是保留更多的前景点以捕获更有价值的空间和位置信息,同时不带来时间消耗的负担,因此精心重新设计了 正如在 具体过程如图2所示,描述如下: 1、Binary Segmentation Module为了避免带来高计算量,采用 2 层 具体来说,给定点特征集 ,其中 表示输入第 k 个 SA 层的点特征 的 d 维,得分 的每个点定义为: 其中Ω表示sigmoid函数,表示第k个SA层的分割模块。真正的分割标签可以从ground-truth box中获得。这里将 ground-truth 框内的点定义为前景点,而将外面的点定义为背景点。因此分割模块的损失可以计算为: 其中表示预测分数,是第k个 2、Semantic-guided Further Point Sampling由于已经从 作者通过添加称为 给定点坐标集 和对应的分数集 ,距离集 是 N 个未选点到已选点的最短距离。在原始 其中 γ 是一个可调整的参数,决定分数的重要性,默认设置为 1。当 γ 固定时,分数 越接近 1, 越大。因此,与
3.4、更快的相邻Voxel Group
受 1、Point to Voxel Coordinate必须将选定关键点的坐标转换为 2、Voxel Query与 为了在总共N个 3.5、基于注意力的残差PointNet在之前的工作中,直接采用简单的 注意力机制在各种视觉任务中已经显示出它的强大威力。得益于 1、Voxel Attention Module如图 4 所示,给定特征集 由 其中 , , 是由可学习矩阵组成的线性投影。那么第 i 个query的注意力权重 是通过 softmax 函数对key 和query 之间的点积相似度计算的: 其中 是比例因子,设置为 最后,加入加权值和原始 2、Residual PointNet Aggregation通过 与采用简单线性层的 3.6、ROI Grid Pooling如图 1 所示,关键点 除了提取 接下来,将所有关键点特征 馈送到第二阶段
具体来说,给定半径 和网格点 ,如果关键点在内,则对关键点 的特征 进行分组。分组关键点特征集 K 定义如下: 其中 是从 到 的相对位置,它连接到特征 。然后将分组的关键点特征集 K 馈送到类似 3.7、损失函数本文方法是一个端到端可训练的网络,通过多任务损失进行优化如下: 正如在第3.3节中提到的,分割损失是通过在 其中、、被赋值为{1.0, 2.0, 0.2},分别表示物体分类损失、位置回归损失和方向回归损失的权重系数。 为了避免模型在确定物体的方向时卡住的情况,给 一个相对较小的参数。具体来说, 是由 是 其中$L_{rcnnclsL_{rcnnloc}L_{rcnncorner}$ 是优化的 smooth-L1 损失函数。 此外,在将整个 3D 场景归纳为少量关键点后,重新加权是合理的,以确保前景点特征具有更大的权重,从而为细化阶段做出更多贡献。如图 6 所示,关键点 的重新加权损失是通过预测的关键点分数和真实标签中的真实标签之间的 4、实验4.1、消融实验1、Foreground Point Sampling的有效性在这一部分中测试了不同数量的前景点对检测精度的影响,如表2所示。前景点越多,结果越准确似乎是可行的。因此,将方程 3 中的 γ 设置为 1、2、3 和 100,以增加采样前景点的数量。 然而,事实证明,当 γ 变大时,性能反而下降。原因是在背景点较少的情况下采样过多的前景点(如 如图 7 所示,当 γ = 1 时,采样的关键点可以聚焦在前景目标上,同时保留适当的背景点。 2、Voxel Query的有效性
3、Attention-based Residual PointNet的有效性提出了 图 8 显示了编码成关键点的 4.2、SOTA对比4.3、可视化与讨论5、总结在本文中介绍了 引入了一个精心设计的点云分割模块,作为对更多与目标相关的关键点进行采样的指南。通过基于曼哈顿距离的快速 所提出的基于注意力的残差 在 6、参考[1].PV-RCNN++: SEMANTICAL POINT-VOXEL FEATURE INTERACTION FOR 3D OBJECT DETECTION |
|
来自: mynotebook > 《待分类》