【泡泡图灵智库】VDO-SLAM：动态对象感知的视觉SLAM系统

taotao_2016 2020-08-02

展开全文

泡泡图灵智库，带你精读机器人顶级会议文章

标题：VDO-SLAM: A Visual Dynamic Object-aware SLAM System

作者：Jun Zhang; and Mina Henein etc.

来源：arXiv 2020

编译：郑帅康

审核：万应才, 李鑫

这是泡泡图灵智库推送的第502 篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是 -- VDO-SLAM: A Visual Dynamic Object-aware SLAM System

该文章发表于arXiv 2020。

传统的SLAM系统大多数在动态环境下运行时通过删除或单独跟踪移动对象来简化问题，这限制了系统在高动态和非结构化环境的应用。本文提出了一种鲁棒的目标感知动态SLAM系统，利用语义信息，在未知目标形状或运动模型的情况下，对场景中的刚体进行运动估计。该方法将环境中动态和静态结构集成到一个统一的估计框架中，从而精确的估计机器人位姿和时空地图。我们提供了一种从运动物体的姿态变化中估计速度的方法，为复杂环境下的导航提供了基础。我们在大量真实室内外数据集上进行了测试，显示一致和实质性的改进，并提供了源代码。

主要贡献

1)动态场景中估计机器人位姿、静态动态3D点、对象运动的统一框架。

2)最先进的动态物体SE3位姿估计，并且提取速度。

3)利用语义信息跟踪动态物体的鲁棒算法并且可以处理遮挡时的分割失败。

算法流程

1.空间定义

X代表相机位姿，L代表对象位姿，m表示点坐标，I表示图像，p表示点归一化坐标，H表示对象的相对转换，T表示相机的相对变换，ϕ为光流。以0帧为全局参考系。

给定一系列空间点m坐标，以及其在图像投影点p，则相机位姿SE3可通过最小化投影误差得到：

转化到se3空间为：

类似，可对物体运动进行估计：

g为G的se3形式，先求解g进而再得到H：

为了保证点的鲁棒跟踪，结合运动估计对光流估计进行优化：

转换到se3空间：

其中

结合对象运动和光流形式为：

2.图优化

将问题建模为因子图，黑色方块表示相机在不同时间步长的姿态，蓝色方块表示三个静态点，红色方块表示一个对象(虚线框)在不同时间步长的相同动态点，绿色方块表示对象在不同时间步长的姿态变化。为了便于可视化，这里只画了一个动态点，然而，在估计时，被检测动态对象上的所有点都被使用。先验一元因子以黑色圆表示，里程计二元因子以橙色圆表示，点测量二元因子以白色圆表示，点运动三元因子以洋红色圆表示。以青色圆表示平滑运动二元因子。

2.系统构成

输入图像为双目或者RGBD，对于双目首先利用Yamaguchi的方法得到深度图即看作RGBD图像。对于单目，可以利用学习等方法估计得到深度图。

预处理需要解决两个问题。一是将静态背景与目标稳健分离，二是保证动态目标的长期跟踪。实例分割有助于将语义前景进一步划分为不同的实例掩码，从而更容易跟踪每个单独的对象；此外，分割掩模提供了一个“精确”的物体边界，以确保对物体上的点的鲁棒跟踪。该方法利用密集光流对语义掩膜内的所有点进行采样，从而大大增加了目标点的数量；密集光流还用于通过传播分配给对象掩码上每个点的唯一对象标识符来一致地跟踪多个对象；在语义分割失败的情况下，可以恢复对象掩码，使用稀疏特征匹配则很难完成。

跟踪包括两部分：摄像机自身运动跟踪包括特征检测和摄像机姿态估计，目标运动跟踪包括动态目标跟踪和目标运动估计。在静态背景中检测稀疏角点利用光流进行跟踪，内点加入地图。相机位姿通过3D-2D匹配计算，初始化利用运动模型生成方法，比较通过运动传播和RANSAC得到的内点数量进行择优选取。动态物体跟踪分为背景分割和帧间关联，利用场景流进行分割，大于一定阈值认为动态，利用光流进行点的关联，静态部分标记为0.物体通常占场景的小部分，需要利用掩码内密集光流进行估计物体运动。

在建图步骤中，构造并维护一个全局地图，同时从全局图中提取局部图，基于当前时间步长和前一个时间步长窗口。两个地图都是通过批处理优化过程更新的。地图可以提供跟踪的对应点和运动初始化先验模型，并且在语义分割失败时传播之前的分割，帮助跨帧关联以确保鲁棒跟踪。

主要结果

我们在室内Oxford Multimotion Dataset和室外KITTI Tracking dataset上进行了测试，并与最新的方法MVO和CubeSLAM进行了对比。系统利用Mask R-CNN进行实例分割，PWC-Net进行密集光流跟踪，MonoDepth2进行单眼相机深度图生成，并提取FAST特征点。

如上图，我们关闭全局优化与MVO进行公平对比，结果表明当观测到物体的旋转运动时，特别是上右摆动和旋转的盒子和下右旋转的盒子，我们会得到稍高的误差。因为该算法是为相对较大的户外物体的运动设计的，光流算法没有很好地优化旋转物体。其结果是对点运动的估计较差，从而导致目标跟踪性能的下降。

如上图，总的来说，我们提出的RGB-D和基于学习的单眼方法在相机和目标运动估计方面都获得了很高的精度。与CubeSLAM相比，我们的RGB-D版本在摄像机运动方面的误差更低，而我们基于学习的单眼版本的误差略高。然而，这两个版本在目标运动估计中获得一致的较低的误差。其中，如图6所示，CubeSLAM的平移误差和旋转误差均在3米以上，3度以上，极端情况下误差分别达到32米和5度。而我们的平移误差在RGBD情况下为0.1-0.3米，旋转误差在0.2-1.5度，单眼学习情况下为0.1-0.3米，0.4-3度，这说明我们的目标运动估计有了一个数量级的提高。

我如上图，们也演示了跟踪动态目标的性能，并显示了目标速度估计的结果。图7给出了在所有测试序列中，一些选中对象(跟踪超过20帧)的目标跟踪长度和目标速度的结果。我们的系统能够跟踪大多数对象超过80%的发生序列。此外，我们估计的物体速度始终与地面真实情况接近

表3、4显示了我们提出的联合光流和运动优化取得了更好的估计结果。

图9显示了系统通过掩膜传播增强了对直接或间接遮挡的鲁棒性。

如上表，系统的跟踪部分可以根据检测到的运动物体的数量以5-8帧每秒的帧率运行，这可以通过采用并行实现来提高。全局批处理优化的运行时间很大程度上取决于相机姿态(帧数)和对象的数量(每帧观察到的动态对象的数量)。

Abstract

The scene rigidity assumption, also known as the static world assumption, is common in SLAM algorithms. Most existing algorithms operating in complex dynamic environments simplify the problem by removing moving objects from consideration or tracking them separately. Such strong assumptions limit the deployment of autonomous mobile robotic systems in a wide range of important real world applications involving highly dynamic and unstructured environments. This paper presents VDO-SLAM, a robust object-aware dynamic SLAM system that exploits semantic information to enable motion estimation of rigid objects in the scene without any prior knowledge of the objects shape or motion models. The proposed approach integrates dynamic and static structures in the environment into a unified estimation framework resulting in accurate robot pose and spatio-temporal map estimation. We provide a way to extract velocity estimates from object pose change of moving objects in the scene providing an important functionality for navigation in complex dynamic environments. We demonstrate the performance of the proposed system on a number of real indoor and outdoor datasets. Results show consistent and substantial improvements over state-of-the-art algorithms. An open-source version of the source code is available.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。