【泡泡图灵智库】基于图像序列增强的深度相机重定位算法

taotao_2016 2020-05-11

展开全文

作者：Fei Xue, Xin Wang, Zike Yan, Qiuyuan Wang, Junqiu Wang, and Hongbin Zha

来源：ICCV2019

播音员：

编译：李永飞

审核：尹双双

这是泡泡图灵智库推送的第 464 篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是——基于图像序列增强的深度相机重定位算法，该文章发表于ICCV2019。

本文提出了利用图像序列的局部信息来改善相机的全局定位。不同于已有的通过单张图像回归全局姿态的算法，本文通过融合视觉里程计来利用图像序列的时间和空间一致性，以减小视觉多义性带来的不确定性。具体来说，本文提出了两种有效的方法，即内容增强的姿态估计和基于运动的定位优化。内容增强步骤的重点是通过在VO流构建的局部地图中基于共可见性增加观测值来减少姿态估计的不确定性。此外，将基于运动的细化描述为一个姿态图，通过采用VO组件提供的相对姿态作为附加的运动约束，进一步优化摄像机的姿态。因此，可以保证定位结果的全局一致性。在公共室内7个场景和室外Oxford RobotCar数据集上的实验表明，得益于序列中固有的局部信息，本文的方法优于最新的方法，特别是在一些具有挑战性的场景下，例如，纹理不足、高度重复的纹理、相似的外观和过度曝光。

主要贡献

本文的主要贡献为：

1、通过如何VO模块，实现了通过图像序列的局部信息来增强相机的全局定位；

2、通过内容增强的局部地图实现位姿估计，从而有效降低的场景的多义性带来的定位不确定性；

3、利用视觉里程计估计的相对位姿构建姿态图，进一步提高定位精度。

算法流程

PS：视觉定位是计算机视觉和机器人领域的一个经典问题，该问题的主要挑战在于：如何实现在纹理缺乏、场景重复度高的情况下，消除定位结果的多义性。本文采用深度学习的方法，实现了直接从图像序列中回归得到相机的位姿，为解决上述挑战，本文主要做了两方面的工作。一是，通过联合局部图像序列，生成局部地图，从而扩大了观测范围，减小了定位的多义性。二是，通过维护一个姿态图，增加定位的几何约束，进一步提高定位精度。

先说第一方面，本文的做法是，通过将多个时刻图像特征送入LSTMs网络，由于LSTMs的隐藏层保留了历史输入信息，因此可以看做是局部多帧图像信息的融合，即局部地图。在利用LSTMs构建局部地图的同时，回归得到相邻帧的相对位姿，为第二部构建姿态图约束创造了条件。对于第二方面，全局定位网络能够回归得到每个时刻的绝对位姿，LSTMs能够估计相邻帧间的相对位姿。由于绝对位姿无漂移但误差较大，相对位姿较精确但存在漂移，通过如何两种估计，实现更精确的定位。

图1. 算法总览。

下面从图像特征提取与视觉里程计、全局定位、位姿优化三个方面对算法做具体介绍。

图2. 采用丢弃掉最后两层的ResNet34 网络来提取图像特征。相邻两帧的图像级联后送入LSTM 网络，实现相邻帧相对位姿估计。原始的特征和LSTM的隐藏层，通过软注意力机制，实现融合，用以估计相机的全局位姿。

1、特征提取和VO

由于图像的原始数据包含了大量的冗余信息，因此直接将图像数据输入LSTMs是比较低效的方法。如图2所示，本文通过将图像送入 ResNet34中，来生成相应的特征图。通过将相邻两帧的特征图级联，送入LSTMs实现对相对位姿的回归，同时将图像序列的时间维度的信息，保存在LSTMs的隐藏层中。

2、全局定位

图3. 在原始特征的指导下，从所有隐藏状态中搜索共同可见的内容。这种选择是通过分别在时域和空域重新调整每个隐藏状态的通道来实现的软注意机制。

尽管LSTMs能够保留历史输入信息，其不具有很好的长期记忆的功能。通过融合不同时刻的隐藏层，能够更好的保留长期的信息。如图3所示，利用当前时刻的特征图，来估计不同时刻的隐藏层与当前时刻的共视关系，以指导隐藏层的融合，即：

3、位姿优化

上述VO能够得到相邻两帧的相对位姿、姿态估计网络能够得到绝对位姿，利用估计得到的相对位姿和绝对位姿，可以构造位姿约束。该约束在训练、测试阶段有不同的用途。在训练阶段，通过引入位姿一致性损失函数，实现上述两个网络的联合训练：

在测试阶段，通过融合绝对位姿和相对位姿，提高绝对位姿的估计精度：

主要结果

本文在 7-Scenes和Oxford RobotCar数据集上对算法进行了测试，主要的结果如下：

表1. 在7-Scenes数据集上，不同方法的平移和旋转误差中值。

图4. 7-Scenes数据集上的实验结果。红色线表示预测结果，绿色线表示真值。

表2. Oxford RobotCar数据集上不同方法的平移和旋转误差中值。

图5. Oxford RobotCar数据集上不同方法的结果。红色为预测值，黑色为真值。

Abstract

We propose to leverage the local information in image sequences to support global camera relocalization. In contrast to previous methods that regress global poses from single images, we exploit the spatial-temporal consistency in sequential images to alleviate uncertainty due to visual ambiguities by incorporating a visual odometry (VO) component. Specifically, we introduce two effective steps called content-augmented pose estimation and motion-based refinement. The content-augmentation step focuses on alleviating the uncertainty of pose estimation by augmenting the observation based on the co-visibility in local maps built by the VO stream. Besides, the motion-based refinement is formulated as a pose graph, where the camera poses are further optimized by adopting relative poses provided by the VO component as additional motion constraints. Thus, the global consistency can be guaranteed. Experiments on the public indoor 7-Scenes and outdoor Oxford RobotCar benchmark datasets demonstrate that benefited from local information inherent in the sequence, our approach outperforms state-of-the-art methods, especially in some challenging cases, e.g., insufficient texture, highly repetitive textures, similar appearances, and over-exposure.