【泡泡图灵智库】法线辅助立体深度估计

taotao_2016 2020-08-05

展开全文

泡泡图灵智库，带你精读机器人顶级会议文章

标题：Normal Assisted Stereo Depth Estimation

作者: Uday Kusupati，Shuo Cheng，Rui Chen and Hao Su

来源：CVPR 2020

编译：陈圣伦

审核：李鑫

这是泡泡图灵智库推送的第505 篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是—— Normal Assisted Stereo Depth Estimation

在室内和室外环境中，精确的立体深度估计在各种三维任务中都起着重要的作用。近年来，基于学习的多视图立体视觉方法在有限视角的情况下的性能较好。然而，在具有挑战性的场景中，特别是在构建跨视图匹配困难的情况下，这些方法的结果仍然不够好。在本文中，我们研究如何利用一个法线估计模型和预测的法线图来提高深度质量。我们联合学习了多视图法线估计模块和多视图深度估计模块。此外，我们提出了一种新的一致性损失训练一个独立的一致性模块，能够利用深度/法线对细化深度。我们发现联合学习可以提高法线和深度的预测性能，通过加强一致性可以进一步提高精度和平滑度。在MVS、SUN3D、RGBD和Scenes11上的实验证明了我们方法的有效性和最先进的性能。

主要贡献

本文主要有以下贡献：

首先，我们提出了一种新的基于代价体的多视图法线预测网络(NNet)。
此外，我们证明了学习代价体的法线估计模型和深度估计可以促进这两项任务。在MVS、SUN3D、RGBD、Scenes11和场景流数据集上的实验表明，我们的方法达到了最先进的性能。

算法流程

1.整体结构

整体结构由两个模块组成。第一个模块的任务是利用多视图图像特征建立的代价体联合估计深度和法线图。第二个模块利用一致性损失加强深度和法线之间的一致性，从而优化深度。

图1 整体框架

2.NNet

图2 NNet

有代价体C1，计算出每个体素的世界坐标连接到其特征。然后，沿着深度维度使用三层步长为2的卷积采样至1/8，称为Cn。将尺寸为((f+3)*H*W)的切片Si送入法线估计网络(NNet)。NNet包含7层3*3的二维卷积，空洞率为1，2，4，6，8，1和1。将所有切片的输出相加，并对总和进行归一化，从而估计出法线图。

第一个模型中预测的深度Z1和Z2使用真实深度Zgt监督，预测的法线n使用真实法线ngt监督，损失函数如下，其中H表示Huber norm。

3.深度法线一致性

图3 相机模型

针孔相机模型如下，

其中（u，v）表示三维点对应的图像像素坐标，（uc，vc）为光心的像素坐标，（fx，fy）为X和Y轴的焦距。

由相机模型可以推理，

估计1：

深度图的空间梯度可以使用Sobel过滤器从深度图计算，

估计2：

假设场景是一个光滑的表面，可以表达为隐函数F(X，Y，Z)=0。法线n为表面的梯度。

因此，可以推导出深度图空间梯度，

一致性损失是两个估计之间偏差的Huber norm，如下。

主要结果

1.对比其他方法

表1 在SUN3D、RGBD、Scenes11和MVS数据集上的评估。除内点率之外的所有指标，越低越好。使用了在[23]中COLMAP、DeMoN和DeepMVS的性能。

表2 ScanNet上法线估计与单视图法线估计的对比。请注意，基于RGB-D和DC的方法使用了真实深度。

2.消融实验

表3 对比评估一致性损失。

表4 ScanNet中特定语义类别的评估。

Abstract

Accurate stereo depth estimation plays a critical role in various 3D tasks in both indoor and outdoor environments. Recently, learning-based multi-view stereo methods have demonstrated competitive performance with limited number of views. However, in challenging scenarios, especially when building cross-view correspondences is hard, these methods still cannot produce satisfying results. In this paper, we study how to leverage a normal estimation model and the predicted normal maps to improve the depth quality. We couple the learning of a multi-view normal estimation module and a multi-view depth estimation module. In addition, we propose a novel consistency loss to train an independent consistency module that refines the depths from depth/normal pairs. We find that the joint learning can improve both the prediction of normal and depth, and the accuracy & smoothness can be further improved by enforcing the consistency. Experiments on MVS, SUN3D, RGBD and Scenes11 demonstrate the effectiveness of our method and state-of-the-art performance.