【原】NeurIPS 2022 Spotlight论文：高效高精度低显存消耗的位置编码点云配准

我爱计算机视觉 2023-02-19 发布于江苏

展开全文

论文作者：杨帆，郭琳，陈志，陶文兵

通讯单位：华中科技大学

论文链接：https:///pdf?id=19MmorTQhho

项目链接：https://fanyang3./OIF-PCR/

1、引言

Transformer结构在包括点云配准在内的许多视觉任务展示出了巨大的潜力。位置编码作为顺序感知模块，在Transformer结构中扮演重要角色。针对3D点云配准任务，来自华中科技大学的研究团队提出了基于一个内点的位置编码实现高效点云配准。

首先从几何的角度分析了点云配准中的刚性变换本质上是满足等距同构性质的映射变换关系。基于这一属性，论文提出确定一个内点用于对点云中每个点进行位置编码，便可以保持正确匹配的空间一致性关系，并保证点云局部特征的区分性。这样做旨在消除待配准点云处在不同的参考系带来的挑战，同时通过学习空间一致性消除特征歧义。

然而，提前确定一个内点并不容易，因为内点的建立依赖具备判别性的局部特征表征。为此论文提出一个联合优化策略，用于迭代优化对应关系建立与位置编码过程。

最后，设计了一种渐进方式用于点云空间位置逐渐对齐以及特征优化，从而减轻对初始值的依赖。

论文所提出的位置编码是相当高效的，仅增加了少量的显存与计算开销。大量的实验表明，该论文所提出的方法与当前SOTA方法相比，在显存占用、运行时间更少的同时，在室内外场景均取得具备竞争力的结果。

2、研究动机

三维刚体点云配准是场景重建、自动驾驶、机器人等许多应用领域的基础研究课题。它旨在估计不同视角重叠点云之间的刚体变换以对齐点云场景。

当前最常用的基于特征的方法包括两个步骤进行点云配准：

1、利用点云中局部邻域几何结构信息为点云中每个点提取局部特征描述符，并通过在特征空间度量特征相似性建立匹配对应关系；

2、在得到匹配对应关系后，利用这些匹配关系通过稳健的模型估计算法（如RANSAC、SVD等）求解两点云间的相对变换关系以对齐两帧点云。尽管在过去的几十年里点云配准任务已经被广泛研究，但由于低重叠、重复模式等问题存在，它仍然具有很大的挑战性。

随着深度学习的出现，基于深度学习的三维表征工作取得了很大的进展，从而推动了点云配准领域基于深度学习方法的发展。这些方法利用深度神经网络技术学习更好的局部特征描述[1,2]致力于建立局部匹配对应关系。然而局部特征描述很容易造成特征模糊，局部相似的结构往往会学习到相似的局部特征，导致准确的匹配关系建立是很困难的。

最近有研究人员引入Transformer结构到点云配准网络，大幅度提升匹配关系精度[3,4,5,6]，但是Transformer结构的平方复杂度会带来巨大的计算开销，并且其缺乏点云的空间位置感知能力。作为Transformer结构最重要的策略之一，位置编码在应用于许多计算机视觉任务时已被证明是至关重要的。

然而，不同于单实例任务（如分类、分割与检测等）处理单张图像或点云，点云配准是一个两实例任务。它需要同时学习两个点云的特征并进行匹配。由于两个待配准点云处于不相关的参考系下，如何将位置编码应用于三维点云配准领域仍然具有挑战性。

图1 刚性变换的等距同构性质

我们观察到, 刚性变换是满足等距同构性质的映射变换关系。如图 1 所示, 和是两对正确的匹配对应关系, 则向量与向量是等距的。假设与分别被选作参考点, 如果仅仅依靠位置信息, 则足以区分为正确匹配, 而是错误匹配, 因为向量的长度相比于更接近的长度。由此表明在局部特征模糊的情况下，位置信息有利于匹配对应关系的正确建立。这表明在确定一个内点后，便可以保持正确匹配的空间一致性关系和保证点云局部特征的区分性。

基于这一观察，我们提出了基于一个内点的位置编码，从而实现高效点云配准，在减轻计算开销的同时提高点云局部特征的显著性。具体来说，我们首先提出了利用可微的最优传输层选择一个内点用于对点云中每个点进行归一化处理并实现位置编码。这样做旨在消除待配准点云处在不同的参考系带来的挑战，同时通过学习空间一致性消除特征歧义。然后，我们基于此提出了一个联合优化策略，用于迭代优化匹配对应关系建立过程与位置编码过程。最后，我们设计了一种渐进方式用于点云空间位置逐渐对齐以及特征优化，从而减轻对初始值的依赖。

3、方法介绍

3.1 整体流程

基于所提出的位置编码，我们设计了一个高效的配准算法，名为OIF-PCR。方法流程图如图2所示。具体来说，方法的输入为两个待配准点云，所提出的方法采用由粗到细的方式建立匹配对应，然后利用这些匹配关系求解两帧点云间的最优相对变换关系。

在粗匹配阶段，首先对输入的原始点云通过KPConv进行降采样处理得到空间分布均匀的节点，并学习各个节点特征。通过在特征空间查找节点的最近邻从而建立粗匹配对应关系。

在建立粗匹配对应关系后，我们将其细化到更精细的尺度。通过点-节点的分组策略将每个节点扩展为局部块结构，在局部块结构的匹配对应关系内部利用最优传输建立细尺度阶段匹配对应关系。最终的匹配对应是所有粗匹配对应关系细化后的细匹配对应关系集合。

图2 基于一个内点的位置编码实现高效点云配准网络

3.2 基于内点的位置编码

受到点云刚性变换所满足的等距同构性质启发，我们提出了基于一个内点的位置编码，从而实现高效点云配准，在减轻计算开销的同时提高点云局部特征的显著性。

首先我们利用Cross-Attention操作编码点云间几何一致性信息，和一个 Self-Attention聚合点云内全局上下文信息。然后我们设计了一个高效的基于一个内点的位置编码网络实现特征重构。在经过注意力操作对粗尺度阶段初始点云特征加强后，我们通过一个可微的最优传输层选择一个内点（正确匹配），然后将这个正确匹配所对应的三维点分别视为两个点云中的参考点。

具体来说，首先根据加强后的粗尺度阶段点云特征计算相似度矩阵，将其转换为最优传输问题利用Sinkhorn算法求解。然后利用top-k策略选择匹配得分较高的多个匹配并生成一个虚拟匹配，这个虚拟匹配所对应的三维点视为两个点云中的参考点。之所以选择多个匹配生成虚拟匹配，是为了避免任意选择带来的算法不稳定性。

在得到参考点后，利用其分别对点云中每个点进行归一化处理并实现位置编码。具体来说，我们使用它们来计算两个点云中每个节点相对于各自参考点的逐点位置向量，再输入到多层感知机网络学习对应的几何位置特征。利用学习到的几何位置特征对原始特征进行重构，从而显著提升粗尺度阶段节点特征辨识能力。

通过确定一对正确匹配，从而可以实现：

1）保留正确匹配之间空间一致性信息，保证特征的辨识度，

2）消除待配准点云处在不同的参考系下所带来的挑战，

3）并且这样做是简洁高效的，我们的实验也表明这种方式显著降低了计算与显存开销。

3.3 渐进点云对齐

位置编码所面临的主要挑战包括点云处于无关联的不同空间参考系下，为了进一步克服这个挑战，我们设计了一种渐进方式用于点云空间位置逐渐对齐以及特征优化，从而减轻对初始值的依赖。我们利用在建立虚拟匹配对应关系阶段所选择的匹配得分较高的多个匹配关系估计当前最优刚体变换模型。

具体来说，给定分数最高的多个匹配关系及其对应匹配得分，通过加权SVD分解的方式求解当前点云间的最优变换矩阵，并根据该最优变换关系更新点云以及参考点间的相对位置。当两点云的参考点空间位置逐渐对齐，则两点云中正确匹配相对于各自参考点的位置向量也趋向于一致。从而使得编码的几何位置特征为建立匹配对应关系提供帮助。

此外，在下节所述联合优化过程中，我们利用重构的特征重复渐进对齐操作，从而逐渐更新两点云之间的相对位置。具体来说，在每次进行位置编码操作前，我们在两点云间进行一次三维空间位置对齐。利用每次联合优化重构后的特征确定可靠的匹配对应，重新估计当前最优的相对变换，并完成点云间相对位置更新。直观上，重构后的特征比原始特征更显著，因此后一阶段估计的变换比前一阶段更准确。在联合优化过程中，多次进行该操作，从而使得两点云在三维空间渐进对齐。在渐进对齐的过程中也实现了对位置编码迭代优化。

3.4 联合优化匹配对应关系建立与位置编码

最后，我们提出一个联合优化策略，用于迭代优化对应关系建立与位置编码过程。内点的学习与位置编码是一个“鸡生蛋-蛋生鸡”的问题：我们所提出的用于学习显著性节点特征的位置编码至少需要一个正确匹配的先验知识；然而，建立一个准确的匹配关系也依赖于对点云进行准确的位置编码从而实现特征重构。这两个问题都是难以预先解决的，为了解决这个循环问题，我们提出通过多次特征重构来实现联合优化内点的学习与位置编码。我们将位置编码整合到节点的特征学习过程中，将其与内点学习过程构造为联合优化任务，通过增强位置编码的辨识能力来提高粗匹配精度。具体来说，通过三维位置信息增强点云特征，进行联合优化。更新的更加准确的相对于所选参考点的位置向量有助于更加准确的位置编码，从而有助于建立一个准确的内点。同时，更加准确的匹配关系意味着更加准确的参考点，这使得更新后的位置向量逐渐满足等距同构性质，从而产生更具辨识性的节点特征。在这个优化过程中，点云特征得到持续优化。

4、实验结果

4.1 数据集和评价指标

我们分别在室内公开配准数据集3DMatch和3DLoMatch以及室外公开激光雷达数据集KITTI上对方法进行了评测。其中3DMatch数据集的点云重叠率大于30％，3DLoMatch数据集的点云重叠率较低，为10％~30％。KITTI数据集是利用LiDAR采集的户外驾驶场景稀疏点云数据集。评价指标包括配准召回率（RR）、特征匹配召回率（FMR）、内点率（IR）、相对旋转误差（RRE）、相对平移误差（RTE）、参数量（Parameters）、显存占用（GPU memory）、运行时间（Runtime）。其中，配准召回率（RR）是点云配准任务最重要也是最主要的指标，它直接反映最终的配准性能。

4.2 总体结果

所提出的方法与其他方法的在三个数据集上的对比结果如表1，2所示。从表中可以看出，所提出的方法优于基于局部描述子的方法和端到端的深度学习方法，取得了最好的配准性能表现。值得注意的是，我们的方法在内点率方面表现不如GeoTransformer，这可以解释为内点率与配准召回率不完全呈现正相关。如[3,4,5]所指出的观点，影响最终配准精度的另一个重要因素是匹配对应关系的分布，如稀疏程度等。空间分布聚集的内点可以提高内点率，但不一定对配准结果有帮助。由于所提出的位置编码可以引入空间一致性，能够建立仅通过局部特征无法建立的匹配关系。因此，尽管我们的方法在内点率方面并不是表现最好，但是在最能反映最终点云配准性能的指标配准召回率方面取得了最好的性能表现。

表1：3DMatch和3DLoMatch数据集上的结果

表2：KITTI数据集上的结果

4.3 迭代优化策略分析

图3：3DMatch和3DLoMatch数据集上不同内点率下的场景频率

我们的方法通过迭代优化的方式确定参考点与重构特征。为了验证该策略的有效性，我们统计了初始与优化后不同内点率下的场景频率，并绘制成直方图，如图3所示。具体来说，我们分别计算3DMatch和3DLoMatch数据集中每个场景的初始和优化后的内点率。然后我们统计两个数据集中不同内点率的场景数量，并以百分比形式展示。从图中可以看出，初始点云特征足以提供可接受的参考点，而所提出的联合优化策略可显著提升参考点的匹配精度。

4.4 计算开销与运行速度

表3：不同方法计算开销与运行速度在3DMatch和3DLoMatch数据集的比较

我们与其他方法进行了参数量、显存占用与运行时间的比较，如表3所示。在参数量方面，GeoTransformer[5]比我们的方法多27%，但我们的方法仍然取得了相当具有竞争力的配准精度，并显著优于其他方法。在GPU显存占用方面，我们的方法排名第二，仅次于CoFiNet[4], 并且只有GeoTransformer的40%。在如此低的显存占用情况下，我们的方法仍然可以达到最先进的配准性能。在运行时间上，我们的方法取得了最快的配准速度。这证明了我们的方法在准确性和速度方面的优越性。

4.5 消融实验

所提出所有模块的消融实验如表4所示。我们以完整网络结构（Full）为Baseline，每次移除一个所提出的组件。其中：w/o progressive alignment为移除点云渐进对齐模块；w/o joint optimization为移除联合优化策略；w/o associated reference points为移除所提出的位置编码，并用基于质心的位置编码代替，即使用点云质心分别作为参考点来代替学习一个匹配对应关系。

表4：消融实验

4.6 定性实验结果

图4中展示了一些可视化的配准结果对比。

图4：定性配准结果对比

4.7 讨论

最后我们展开了一项有趣的讨论，讨论最终配准结果与匹配对应之间的关系。我们统计了Geotransformer与我们的方法不同内点率的场景频率，并以场景分布曲线图的形式呈现，如图5所示。

具体来说，我们在3DMatch和3DLoMatch数据集中统计不同内点率的场景数量，并以频率的形式呈现。此外，我们还统计了不同内点率下的场景配准召回率，如图6所示。

在3DMatch数据集，我们的方法在大多数场景内点率在0.2 ~ 0.9之间，而Geotransformer的内点率在0.5 ~ 1.0之间。在3DLoMatch数据集中，我们的方法在大多数场景的内点率在0.05到0.6之间。而Geotransformer的内点率多处于0.5 ~ 0.9之间。

事实上，内点率是通过平均所有点云对的数据来得到的。Geotransformer在某些情况下具有较高的内点率，使得其平均内点率高于我们的方法。然而，较高的内点率并不是高配准召回率的必要条件。从图6可以看到我们的方法在相同的内点率下可以得到更高的配准召回率 (特别是在3DLoMatch数据集上的区间[0.15,0.5])，这表明我们的方法得到的内点分布可能更有利于模型估计。

这里并不是质疑高内点率对最终配准结果的作用，高内点率当然对于最终的配准结果大有裨益。而是强调一个被忽略的事实：内点率并不是影响最终配准精度的唯一决定性因素，还有很多其他因素值得纳入考虑，如匹配对应关系的分布等。关于配准召回率与内点率的关系，这将会是一个值得深入探讨与研究的问题。

图5：3DMatch和3DLoMatch数据集上不同内点率的场景分布

图6：3DMatch和3DLoMatch数据集上不同内点率的场景配准召回率

参考资料

[1] Sheng Ao, Qingyong Hu, Bo Yang, Andrew Markham, and Yulan Guo. Spinnet: Learning a general surface descriptor for 3d point cloud registration. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11753–11762, 2021.

[2] Christopher Choy, Jaesik Park, and Vladlen Koltun. Fully convolutional geometric features. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 8958–8966, 2019.

[3] Shengyu Huang, Zan Gojcic, Mikhail Usvyatsov, Andreas Wieser, and Konrad Schindler. Predator: Registration of 3d point clouds with low overlap. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4267–4276, 2021.

[4] Hao Yu, Fu Li, Mahdi Saleh, Benjamin Busam, and Slobodan Ilic. Cofinet: Reliable coarseto-fine correspondences for robust pointcloud registration. Advances in Neural Information Processing Systems, 34, 2021.

[5] Zheng Qin, Hao Yu, Changjian Wang, Yulan Guo, Yuxing Peng, and Kai Xu. Geometric transformer for fast and robust point cloud registration. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11143–11152, 2022.

[6] Zi Jian Yew and Gim Hee Lee. Regtr: End-to-end point cloud correspondences with transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6677–6686, 2022.

END