【泡泡图灵智库】用于相机重定位的专家采样一致性

taotao_2016 2020-03-29

展开全文

泡泡图灵智库，带你精读机器人顶级会议文章

标题：Expert Sample Consensus Applied to Camera Re-Localization

作者：Eric Brachmann and Carsten Rother
（Visual Learning Lab,Heidelberg University (HCI/IWR))

来源：ICCV2019

编译：尹双双

审核：李永飞

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是——Expert Sample Consensus Applied to Camera Re-Localization

将模型参数拟合到一组有噪声的数据点是计算机视觉中的一个常见问题。本文我们通过一组二维输入图像和一个已知的三维环境之间的噪声对应拟合6D相机的姿态。我们用神经网络从图像中估计这些对应关系。由于对应关系通常包含外点值，因此我们利用随机样本一致性(RANSAC)或可微RANSAC (DSAC)等稳健估计器来拟合位姿参数。当问题域(例如所有2D-3D对应的空间)很大或很模糊时，单个网络不能很好地覆盖该域。多专家(MoE)是一种流行的策略，它将一个问题域划分给一组称为专家的专门网络，其中一个门控网络决定哪个专家负责给定的输入。本文中，我们引入了专家样本一致性(ESAC)，它将DSAC集成到MoE中。我们的主要技术贡献是一个有效的方法来联合培训ESAC和端到端的。实验证明，ESAC比其他方法更好地处理两个实际问题：尺度和模糊度。我们将ESAC应用于简单几何模型的合成图像中，并将其应用于困难的真实数据集的相机重新定位。

主要贡献

1. 我们提出专家采样一致性，从多专家策略获得可微分RANSAC的整个构成；

2. 一种联合地和端对端训练ESAC方法。

3. 通过尝试拟合噪声的人工输入来展示本文算法的性能。

4. 我们的方法可以改善两个基于学习的相机定位常遇到的实际问题：尺度和模糊度，而且在公开的难度高室内定位数据集上取得最先进的效果。

算法流程

图二网络集成尝试。(a)两个专家网络，一个负责找线段，一个负责找圆形。它们都分别预测一组在线上或圆上的2D点集，再基于这些点通过差分RANSAC拟合模型参数。(b)门控网络用来判断一张影像是否含有线段或圆形。

1. 可微分RANSAC

RANSAC表示如下，d(.)表示距离计算函数，t表示阈值。

最佳模型一定具有最高的评分：

由于最大值选取函数不具有可微分性，神经网络无法直接采用RANSAC，所以提出可微分RANSAC,核心思想是将假设概率化，这样就可以在训练过程中最小化损失误差：

最后将方程（1）中不可微的内点计数改为：

2. 专家选择

图三集成互动。输入一张有线段或圆的图像，估计相关模型的参数。a)门控网络选择了一种专家网络，然后只基于该专家预测结果进行采样模型假设。b)门控网络预测应该模型假设的数目怎么分配给专家，也就是我们需要对线和圆假设都进行采样。在这个例子中，a)和b)的估计结果是相似的，但是b)中考虑了门控网络的所有预测，而不仅仅是最大概率的。

首先根据门控网络预测选择一个专家网络：

再根据p(e)选择一个正确的专家预测后最小化期望误差和根据p(j|e)选择一个专家的模型假设。为了计算外在的期望值，我们必须在所有的M个专家网络上总结并且每次进行DSAC来得到内部期望。由于DSAC耗计算，而且有时候专家数目多，很难实现上面的思路。但是，可以重写期望的梯度作为期望：

3. 专家采样一致性

并不是让门控网络选择一个有可能错误的专家，我们将在所有专家间分配N个模型假设。

4. 用ESAC进行相机重定位

估计相机6个自由度的姿态参数，流程基于DSAC++。对于影像中每个带有2D位置的像素i，我们回归得到一个3D场景坐标。用PnP算法可以在最小子集4对2D-3D对应关系中估计模型。随机采样多个最小子集得到N个位姿假设，根据打分确定最佳模型。一旦得到一个假设，就通过可微分的位姿优化。对于场景坐标估计方法基于DSAC++，具体代码已经开源。

主要结果

图四，实验结果 a)正确估计模型参数的百分比（左）和正确选择模型类别的百分比（右）；b）定性结果。真值模型用绿色表示，估计的用蓝色。

图五场景ID已知时的位姿精度。误差在5cm和5°的位姿估计百分比和中误差

图六场景ID未知时的平均位姿精度。a)场景在扩大中的精度b)场景分类的平均精度

图七端对端训练影响。当我们对所有网络集成或者部分进行端对端训练时，ESAC关于19Scenes平均的重定位精度。

图八在19Scenes上的精度和效率对比。

图九大尺度室外重定位

图十在Aachen上的定性结果

Abstract

Fittingmodel parametersto aset ofnoisydata pointsis a common problem in computer vision. In this work, we fit the 6D camera pose to a set of noisy correspondences between the 2D input image and a known 3D environment. We estimate these correspondences from the image using a neural network. Since the correspondences often contain outliers,we utilize a robust estimator such as Random Sample Consensus (RANSAC) or Differentiable RANSAC (DSAC) to fit the pose parameters. When the problem domain, e.g. the spaceofall2D-3Dcorrespondences, islargeorambiguous, asingle networkdoesnotcover thedomainwell. Mixtureof Experts (MoE) is a popular strategy to divide a problem domain among an ensemble of specialized networks, so called experts, where a gating network decides which expert is responsible for a given input. In this work, we introduce Expert Sample Consensus(ESAC),which integrates DSAC in a MoE.Our main technical contribution is an efficient method to train ESAC jointly and end-to-end. We demonstrate experimentally that ESAC handles two real-world problems better than competing methods, i.e. scalability and ambiguity. We apply ESAC to fitting simple geometric models to synthetic images, and to camera re-localization for difficult,real datasets.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。