【泡泡图灵智库】语义地图视角不变重定位

taotao_2016 2020-02-21

展开全文

泡泡图灵智库，带你精读机器人顶级会议文章

标题：Semantic Mapping for View-Invariant Relocalization

作者：Jimmy Li, David Meger and Gregory Dudek

来源：2019 International Conference on Robotics and Automation (ICRA)

编译：陈圣伦

审核：李鑫，万应才

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是——Semantic Mapping for View-Invariant Relocalization。

本文提出了一种视觉同时定位与地图构建(SLAM)系统，该系统将传统的基于局部外观的特征与语义上有意义的目标地标相结合，实现精确的局部跟踪和基于物体的视角不变重定位。建图过程使用了一种基于采样的方法来有效地从二维包围框目标检测中推断出目标地标的三维位姿。这些三维地标然后作为一个视角不变的表示来实现相机的重定位，即使当视角变化超过125度。这种程度的视角不变性不能通过局部基于外观的特征(例如SIFT)来实现，因为当视角发生显著变化时，同一组表面甚至不可见。实验表明，即使现有的方法在视角变化超过70度时完全失败，该方法仍然可以达到90%左右的重定位率，平均旋转误差在8度左右。

主要贡献

本文提出了一个SLAM系统，建立了一个由三维立方体表示物体组成的环境语义地图。提出了一种混合方法，而不是仅仅依赖于目标的地标，将传统的视觉SLAM和语义地标集成。本文的重点是测量目标地标在重定位任务中的效用。

算法流程

问题描述

该方法由两个部分组成，

1)语义建图算法，跟踪目标的帧间三维姿态，生成包含目标的度量地图;

2)重定位算法，给定同一场景的两个语义地图，将两个地图对齐产生相对的相机变换。

语义建图算法

给定RGB视频序列计算以包围立方体表示的可见目标的三维姿态。包围立方体表示为9维向量，其中包含其位置(x、y、z)、方向(滚动、俯仰、偏航)和规模(长、宽、高)。如算法1所示，顺序处理图像序列。使用ORB-SLAM2估计位姿，使用Faster-RCNN进行目标检测获得二维包围框，通过对二维包围框进行三角化获得目标的三维立方体。随着更多观测的出现，使用期望最大化方案进行数据关联，并在算法的每次迭代中更新目标的姿态。算法的具体过程如下。

1)初始化(行号3-8)

算法的每次迭代中，使用ORB-SLAM跟踪新图像。一直等到ORB-SLAM初始化，在此基础上为关键帧估计相机姿态。

2)数据关联(行号9-12)

初始化后在每次迭代中更新目标地标的三维姿态。首先将地标(三维立方体)投影到关键帧图像中为包围框，并与检测结果匹配。采用Hungarian算法进行匹配，匹配代价如下，

其中p为投影包围框，d为投影包围框，下标l，t，r和b表示包围框在像素坐标中的左、上、右和底边。

3)目标位姿更新(行号13-21)

将目标地标表示为单独的三维点(x, y, z)。选择包围框的顶部中心点表示，并三角化。三角化的点靠近目标地标的顶部表面，近似为顶部中心点。然后构建三维立方体，将立方体与空间布局的主轴线对齐，以避免搜索整个空间的方位。使用目标类型的平均长度，宽度和高度初始化尺度，且三维立方体的投影与关键帧中检测到的包围框对齐。该过程是算法流程中的GENHYPOTHESES。对生成立方体假设h打分，

其中Ko是与目标o相关的关键帧，fk投影h到关键帧k中，c为2)中的匹配代价，最后一项测量两个立方体的一致性，见4)。分数越低表明假设越好。

在对所有地标的每个假设打分后，用最好得分的假设（且好于现有得分）更新每个地标。

4)上下文一致性(行号20)

上下文信息约束目标的姿态，方法如下，

BOTTOMDIST(h,h')给出两个立方体的底面与共面之间的距离，表示两个目标是否通常位于同一平面上。例如，键盘和显示器往往位于同一表面，而键盘和椅子则不在同一表面。

5)地标初始化(行号22-29)

在每次迭代中，如果在数据关联步骤中检测包围框与任何现有地标不匹配，则将为此检测实例化一个新目标地标。只需生成一个立方体，它的投影与检测结果一致。

重定位

给定由一组目标地标组成的两种语义地图L1和L2，重定位可以归结为以下最大化问题，

Ω方法传入两个方法的结果，前者返回一组新的地标，后者返回被s缩放的一组地标。Ω方法内执行两个操作，并返回内点数量。第一个操作是计算两组目标地标之间的最佳匹配，匹配代价是o1和o2的中心之间的欧氏距离。第二个操作是识别匹配的内点，正确匹配的目标在三维空间中应该有很近的距离，可以排除目标间欧氏距离大于阈值的匹配。其余的匹配称为内点。因为已知o1和o2各自的参照系之间的相对变换，可隐式地得到两个摄像机轨迹之间的相对变换。

主要结果

本文的方法即使视角变化超过125度，也没有观察到旋转误差的大幅增加。由于缺少特征匹配，超过30度时ORB-SLAM不会产生结果。ASIFT特征匹配产生的错误匹配比例随着视角的增加而增加，从而导致错误的增加。本方法也存在误差较大的现象，这是因为高度混乱的场景和大量的局部遮挡导致了错误的地图估计和不正确的数据关联。

图1 重定位相机位姿旋转误差

当视角变化超过70度时，传统的基于局部外观特征的方法(比如ORB-SLAM、ASIFT)就会停止工作，因为同一组表面不再可见。基于目标的方法对更大的视角变化是鲁棒的。

图2 重定位成功率

重定位成功的例子中，对于每个轨迹绘制关键帧的相机位姿。用于重定位的可见对象显示为紫色，不用于重定位的对象没有显示。

图3 重定位成功的例子

Abstract

We propose a system for visual simultaneous localization and mapping (SLAM) that combines traditional local appearance-based features with semantically meaningful object landmarks to achieve both accurate local tracking and highly view-invariant object-driven relocalization. Our mapping process uses a sampling-based approach to efficiently infer the 3D pose of object landmarks from 2D bounding box object detections. These 3D landmarks then serve as a view-invariant representation which we leverage to achieve camera relocalization even when the viewing angle changes by more than 125 degrees. This level of view-invariance cannot be attained by local appearance-based features (e.g. SIFT) since the same set of surfaces are not even visible when the viewpoint changes significantly. Our experiments show that even when existing methods fail completely for viewpoint changes of more than 70 degrees, our method continues to achieve a relocalization rate of around 90%, with a mean rotational error of around 8 degrees.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。