【原】3D深度学习简介

小白学视觉 2021-09-21

展开全文

重磅干货，第一时间送达

在过去的几年里，像微软Kinect或Asus Xtion传感器这样，既能提供彩色图像又能提供密集深度图像的新型相机系统变得唾手可得。人们对此类系统的期望很高，它们将推动机器人技术和视觉与增强现实领域中基于3D感知的新应用。

三维深度学习方法已经从使用三维数据的派生表示转变为直接使用原始数据。在方法方面，将二维卷积神经网络应用于三维数据已转化为专门为三维场景设计的方法，这大大提高了对象分类和语义分割等任务的性能。

本文将重点介绍最近的三维对象分类和语义分割。我们将首先回顾一些获取和表示三维数据的常用方法的背景，接下来，介绍三种不同的基本三维数据表示方法。最后，我们将介绍未来有希望的新研究方向，并从我们的角度总结该领域的未来方向。

三维表示

获取三维数据后，需要将其表示为一种形式，作为正在构建的处理流的输入。

以下是常见的四种表述：

(a) 点云；(b) 体素网格；(c) 三角网格；(d) 多视图表示

1、点云是三维空间中点的集合；每个点由某个（x、y、z）位置确定，我们还可以为其指定其他属性（如RGB颜色）。

2、体素网格是从点云发展而来的，体素类似于三维空间中的像素。

3、多边形网格由一组具有公共顶点的凸多边形曲面组成，这些曲面可以近似于几何曲面。

4、多视图表示是从不同模拟视角获得的渲染二维多边形网格图像的集合。

多视图表示是将深度学习模型应用于三维场景的最简单方法。该问题已转化为二维问题，但它仍允许在一定程度上对三维几何结构进行推理。这一思想的早期应用基于[1]一种简单但非常有效的网络体系结构，它可以从三维对象的多个二维视图中学习特征描述符。在预先训练好的VGG网络中逐个输入图像，以提取显著特征，组合这些结果向量，并将这些信息传递给剩余的卷积层以进行进一步的特征学习。

固定数量的二维视图仍然只是底层三维结构的不完美近似。由于从二维图像获得的特征信息有限，语义分割等任务，尤其是在跨越更复杂的对象和场景时，变得更具挑战性，这些缺点促使人们研究直接使用三维数据进行学习的方法。

通过体素网格学习可以解决多视图表示的主要缺点。体素网格缩小了2D和3D之间的差距。它们是图像最接近的三维表示，这使得二维DL概念很容易应用于三维场景。

Maturana和Scherer于2015年提出的VoxNet[2]是第一个在具有给定体素网格的对象分类任务上实现优异性能的VoxNet，VoxNet使用概率占用网格，其中每个体素包含体素在空间中被占用的概率。这样做的一个优点是，它允许网络区分已知为自由的体素和占用率未知的体素。

该体系结构由两个卷积层和一个池层组成，两个完全连接的层用于计算输出类别得分向量。VoxNet代表着迈向真正3D学习的一大步，但体素网格仍有一些缺点。首先，与点云相比，它们失去了分辨率。因为如果表示复杂结构的不同点非常接近，它们将绑定在同一个体素中。同时，与稀疏环境中的点云相比，体素网格可能会导致不必要的高内存使用率，这是因为它们主动消耗内存来表示空闲和未知空间，而点云只包含已知点。

考虑到使用基于体素的方法的问题，最近的工作集中在直接对原始点云数据进行操作的架构上。Qi等人于2016年提出的PointNet是处理这种不规则3D数据的最早方法。当我们在点云中给定N个点时，网络需要学习一个独特的特征，该特征相对于这些N个输入点的完整排列是恒定的，因为这些输入为神经网络提供了点的顺序，而不影响基础几何结构。此外，网络应对点云旋转、平移和其他变换具有鲁棒性，缩放操作不应影响预测结果。

为了解决学习点云几何变换不变表示的问题，PointNet使用了一个称为T-Net的小型网络，该网络将仿射变换应用于输入点云。这个概念类似于空间变换网络，但要简单得多，因为不需要定义新类型的层。T-Net是一个可学习的参数组合，这些参数使PointNet能够将输入点云转换为固定和标准化的空间，从而确保整个网络对即使是最细微的变化也具有鲁棒性。