分享

【泡泡图灵智库】伪RGB-D自增强单目SLAM与深度预测

 taotao_2016 2020-08-04

泡泡图灵智库,带你精读机器人顶级会议文章

标题:Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction

作者: Lokender Tiwari1, Pan Ji2, Quoc-Huy Tran2, Bingbing Zhuang2, Saket Anand1,and Manmohan Chandraker2,3

来源:ECCV 2020

编译:Weirse

审核:wyc

这是泡泡图灵智库推送的第 504 篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

        大家好,今天为大家带来的文章是—— Pseudo RGB-D for Self-Improving Monocular SLAM and Depth Prediction

经典的单目SLAM和最近出现的用于单目深度预测的卷积神经网络(CNNs)代表了两种相互独立的方法来构建周围环境的三维地图。在这篇文章中,我们证明了这两者的耦合关系通过利用各自的优势来减轻其他缺点。具体来说,我们提出了一种基于窄宽基线的联合自改进框架,一方面利用CNN预测的深度来执行基于伪RGB-D特征的SLAM,从而获得比单眼RGB-SLAM更好的精度和鲁棒性。另一方面,通过为改进深度预测网络而提出的新的宽基线损失,将BA的三维场景结构和相机姿态注入深度网络,从而在下一次迭代中继续为更好的姿势和三维结构估计做出贡献。我们的框架只需要在训练和推理阶段使用未标记的单目视频,并且能够比最先进的自监督单目和立体深度预测网络(例如monodeepth2)和基于特征的单目SLAM系统(即ORB-SLAM)表现得更好。在KITTI和TUM-RGB-D数据集上的大量实验验证了我们的改进几何CNN框架的优越性。

主要贡献

本文主要有以下贡献:

  1. 提出了一种自我改进的策略,将SLAM输出更普遍适用的几何原理的监督注入深度预测网络

  2. 本文引入了两种宽基线损失,即对称深度转移损失和共同跟踪点的深度一致性损失,并提出了一种基于窄基线和宽基线的联合深度预测学习系统,其中基于外观的损失在窄基线上计算,纯几何损失在宽基线上计算(非连续的时间距离关键帧)。

  3. 通过对KITTI[13]和TUM RGB-D[42]的大量实验,我们的框架比单目SLAM系统(即ORB-SLAM[32])和最先进的无监督单视深度预测网络都有更好的性能

算法流程

1.整体结构

我们融合了几何SLAM和基于CNN的单目深度估计,这种互补性是自监督提高框架的基础。为了提高深度预测,我们在训练策略中使用了两个主要的修改。首先,我们避开了基于学习的姿势估计,而是基于几何SLAM的估计。其次,利用相邻关键帧的共跟踪关键点,对CNN模型进行对称深度转移和深度一致性损失。这些调整是基于这样的观察,即位姿估计和几何SLAM的稀疏3D特征点估计都是鲁棒的,因为大多数技术通常在公共关键点的宽基线深度估计上应用多个束调整迭代。这个简单的观察和随后的修改是自我改进框架的关键,它可以利用任何无监督的基于CNN的深度估计模型和现代单目SLAM方法。本文以ORBSLAM为几何SLAM方法,MonoDepth2[15]为CNN模型,对框架进行了测试。

图1 整体框架

2.基线自适应

ORB-SLAM将深度数据转换成视差,以重用立体ORB-SLAM的框架。考虑具有二维坐标(ul,vl)(即,ul和vl分别表示水平和垂直坐标)和CNN预测深度dl,虚拟校正右视图上相应的2D关键点坐标(ur,vr)为ur=ul−fxb dl,vr=vl,其中fx是水平焦距,b是虚拟立体基线。

为了获得合理的视差范围,本文模仿KITTI数据集的特点,使基线自适应,b=bKITTI dKITTI max*dmax,其中dmax代表CNN预测的输入序列的最大深度,bKITTI=0.54和dKITTI max=80(均以米为单位)分别是KITTI数据集的实际立体基线和经验最大深度值。总结了RGB-D ORB-SLAM的总体流程。由于深度的可用性,3D地图在序列的第一帧被初始化。在此基础上,完成了以下主要任务:i)根据局部地图匹配二维关键点来跟踪摄像机;ii)通过局部束调整增强局部地图;iii)检测并闭合用于姿势图优化和全束调整的环路,以改善相机姿势和场景深度。

图2 窄和宽基线损失。窄基线光度和平滑度损失涉及关键帧ican和临时相邻帧Ic-1和Ic+1,宽基线对称深度转移和深度一致性损失涉及关键帧ican和时间上更远的关键帧ik1和Ik2。

3.融合

与Monodepth2只依赖相邻帧之间的窄基线光度重建损失来获得短期一致性,我们提出宽基线对称深度转移和稀疏深度一致性损失来引入长期一致性。我们的最终损失(等式(4))包括窄基线损失和宽基线损失。窄基线损失,即光度和平滑度损失,涉及当前关键帧ican及其在时间上相邻的帧Ic-1和Ic+1,而宽基线损失是在当前关键帧ican上计算的,相邻的两个关键帧ik1和ik2在时间上比Ic-1和Ic+1更远

4.Loss

Depth Consistency Loss:

深度一致性损失的作用是使深度网络的预测值与pRGBD SLAM得到的精确深度值一致。pRGBD SLAM的深度值在宽基线上经过多次优化,因此更精确,并能获得长期一致性。我们通过深度一致性损失将这些长期一致的深度从pRGBD SLAM注入深度网络。

Photometric Reconstruction Loss

合成帧与原始帧的光度重建误差:

5.具体实施

我们基于Monodepth2[15]和ORB-SLAM[33]实现了我们的框架,即分别使用Monodepth2的深度网络和RGB-D版本的ORBSLAM进行深度细化和姿态细化。我们要强调的是,我们的自我提升策略并不是针对MonoDepth2 和 ORB-SLAM任何其他允许合并SLAM输出的深度网络和能够提供所需SLAM输出的SLAM系统都可以放入自我改进框架中。我们将最终损失的平滑度损失项的权重(公式(4))β=0.001设置为与[15]中类似的α、γ和µ为1。关于禁用不同损失项的烧蚀研究结果可在表中找到。

主要结果

1.精度分析

表1  KITTI原始测试集的定量深度评估结果。M:自监督单目监控,S:自监督立体监控,D:深度监控,D*:辅助深度监控。“-”表示该结果无法从论文中获得。Pseudo-RGBD的性能优于所有的单目自监督、单目立体以及单目和立体相结合的方法。

图3 KITTI Raw Eigen分割测试集的定性深度评估结果。。

图 4 KITTI序列的定性姿态评估结果。

图 5 深度/姿势评估指标w.r.t.自我改进回路。(a-c)中的深度评估指标是在30-80米的不同最大深度上限下计算的。

Abstract 

Classical monocular Simultaneous Localization And Mapping (SLAM) and the recently emerging convolutional neural networks (CNNs) for monocular depth prediction represent two largely disjoint approaches towards building a 3D map of the surrounding environment. In this paper, we demonstrate that the coupling of these two by leveraging the strengths of each mitigates the others shortcomings. Specifically, we propose a joint narrow and wide baseline based self-improving framework, where on the one hand the CNN-predicted depth is leveraged to perform pseudo RGB-D feature-based SLAM, leading to better accuracy and robustness than the monocular RGB SLAM baseline. On the other hand, the bundle-adjusted 3D scene structures and camera poses from the more principled geometric SLAM are injected back into the depth network through novel wide baseline losses proposed for improving the depth prediction network, which then continues to contribute towards better pose and 3D structure estimation in the next iteration. We emphasize that our framework only requires unlabeled monocular videos in both training and inference stages, and yet is able to outperform state-of-the-art self-supervised monocular and stereo depth prediction networks (e.g., Monodepth2) and feature-based monocular SLAM system (i.e., ORB-SLAM). Extensive experiments on KITTI and TUM RGB-D datasets verify the superiority of our self-improving geometry-CNN framework. 

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多