MO-LTR：基于单目RGB视频的多目标定位、跟踪与重建

taotao_2016 2021-02-08

展开全文

干货第一时间送达

标题：MO-LTR: Multiple Object Localization, Tracking and Reconstruction from Monocular RGB Videos

作者：Kejie Li1 Hamid Rezatofighi2 Ian Reid1

来源：arXiv 2020

编译：点云PCL

摘要

在机器人和AR/VR应用领域中，语义感知与重建比纯几何重建更具优势，因为它不仅代表物体的位置，而且了物体是什么。以对象为中心的建图是一项建立物体重构的任务，其中物体对象是独立的、有意义的实体，同时传递几何和语义信息。在本文中提出了MO-LTR，一种仅使用单目图像序列和相机姿态的以对象为中心的建图解决方案。当单目相机捕捉到周围环境的视频时，它能够以在线方式定位、跟踪和重建多个对象。在给定一个新的RGB帧的情况下，MO-LTR首先利用单目3D感知算法对感兴趣的目标进行定位，并在学习的嵌入空间中提取代表目标物体的形状。在数据关联后，检测结果将合并到地图中的现有对象。通过多模型的贝叶斯滤波器跟踪每个目标的运动状态（即运动学和运动状态），并通过融合多个物体形状逐步细化目标形状。我们评估定位，跟踪和重建在基准数据集的室内和室外场景，并显示优于以往的方法性能。

输入RGB图像的子集左边图像表示。检测和跟踪显示在中间图像，其中彩色光线表示对同一物体的相关探测。从MO-LTR的对象级重建如右图所示。

主要内容

我们提出了MO-LTR，这是一个统一的以对象为中心的建图框架，能够在给定单目RGB视频的情况下在线定位、跟踪和重建多个对象。
证明了单目三维检测、多模型贝叶斯滤波和深度学习形状先验的结合可以实现鲁棒的多目标跟踪和重建。
对提出的系统进行了广泛的评估，在室内和室外数据集上显示出比以前的方法更精确的重建和健壮的跟踪。

MO-LTR流程概述

本文提出了一种新的RGB框架，MO-LTR首先采用单目3D感知算法来预测9自由度物体姿态、物体类别标签和2D包围盒。对于每个检测到的物体，由物体的二维边界框裁剪的图像映射到之前学习的形状库中。地图中每个现有对象物体的状态即姿态和运动状态由多模型贝叶斯滤波器建模。在数据关联之前，使用滤波器来预测对象的位置，并根据预测的运动状态来判断对象是否匹配。新的检测物体基于简单但实用的成对代价作为匹配代价与可匹配对象相关联。使用Munkres算法来解决线性分配问题，以确定检测是合并到对象轨迹还是实例化地图中的新对象。使用相关检测器更新滤波器。为了重建一个物体的形状，多个单视图形状码通过取平均值融合成一个单视图形状码，然后由形状码解码为TSDF。使用更新的物体对象姿势将对象形状转换为世界坐标。上图显示了系统的流程，具体细节可以查看论文中相关内容。

ScanNet数据集的定位与重建。顶行：真值mesh网格作为参考，中间行：物体覆盖在真值网格上以显示定位质量。底行：对象形状重建。mesh网格仅用于可视化目的。MO-LTR的输入仅为相机姿势和RGB图像

实验对比

KITTI数据集上的目标跟踪。跟踪的目标是一致的，激光雷达点云只用于可视化目的。

KITTI数据集重建与MOTSFusion重建的比较。左：当前帧，中：MOTSFusion重建，右：我们的重建。请注意，彩色激光雷达点云仅用于可视化，而不是处理的一部分。

总结

本文提出了一种基于单目图像序列的多目标定位、跟踪和重建框架MO-LTR。利用深度形状先验进行完整而精确的形状重建，并利用IMM滤波器联合跟踪物体的运动和判别运动状态。在静态和动态环境下，我们对MO-LTR进行了广泛的室内和室外评估。虽然我们证明了依赖于3D GIoU的数据关联是实用的，但一个有趣的未来方向是开发一种基于学习的数据关联方法。这还可以为端到端可学习系统铺平道路。并且SLAM可以为MO-LTR提供相机姿势。另一个有希望的未来方向是将MO-LTR集成到SLAM框架中，以便在SLAM中利用而物体对象的先验知识。

本文仅做学术分享，如有侵权，请联系删文。

下载1