现实虚拟化：从三维重建到逆渲染（Inverse Rendering）

taotao_2016 2023-01-30 发布于北京

展开全文

三维计算机视觉可以分为两个主要问题：三维重建（3D Reconstruction）和三维理解（3D Understanding），前者侧重于从图片恢复出场景的几何表示，后者侧重于提取出场景中实体的空间关系和语义信息。三维重建已经是一个被深入研究的问题，其中涉及到的知识包括基础的多视角几何(Multiple view geometry)，状态估计（State Estimation），优化理论，到图像处理/视觉中特征点检测、图形学中的几何表示和处理等等。

基于视觉的三维重建将输入的一系列图片转换为几何模型。尽管三维重建可以帮助我们采集场景的几何结构，对于三维测绘、自动驾驶等场景具有极大价值，但如果我们想要感受真实世界一样，那么三维重建的结果远远不能满足我们人眼的要求。同时，由于和真实世界的差距，利用三维重建出的模型训练深度网络也会产生一些泛化性的问题（Domain Gap）。这样，逆渲染（Inverse Rendering）可以在三维重建的基础上，进一步恢复出场景的光照、材质等信息，从而可以实现更具真实感的渲染。

什么是逆渲染呢？我们先说渲染是什么。渲染（Rendering）是图形学的三大问题之一，除此之外还包括几何（Geometry）和动画（Animation）。给定一个虚拟三维场景的描述（包括模型、位置关系、光照等），渲染过程将3D的场景转化为2D的图片。而逆渲染则是渲染的逆过程，给定一系列照片，恢复出场景的几何、光照和材质。

因此无论是三维重建和逆渲染，都可以视为图片和场景之间的一个桥梁。在介绍其流程之前，我们先介绍下照片和场景的本质。

照片的本质

照片本质是三维世界在二维平面上的一个投影。我们通过相机中的图像传感器阵列来记录场景中物体表面发出的光线的颜色（RGB）。因此图片中的每一个像素对应了三维空间中的一个点，而这样一个对应关系通过相机模型（Camera Model）来表达。相机模型有一系列相机参数，称为相机的内参（Intrinsic）。最为常见的就是针孔相机模型（Pin-hole），全景相机（Omnidirectional）等等。

场景的本质

虽然我们一直说三维重建要恢复场景，那么到底如何表示场景呢？简单来说，场景（Scene）可以由多个物体（Object）组成。场景可以通过物体本身的模型以及之间的相对位置关系来描述。我们可以对每个物体赋予一个坐标系，并且定义一个世界原点。这样，无论是什么样的物体，我们都可以通过坐标系之间的相对坐标系变换来表示，包括位置（Translation）和旋转（Rotation）两部分，简称位姿（Pose）。同样的，作为拍摄场景的相机（Camera），也可以视作一个特殊的物体。

不过通常来说，在三维重建中我们主要将场景中的所有物体视为一个整体，用单个模型来表示。对于一个模型，我们分成几何结构（Geometry）、材质纹理（Texture/Material）及其映射关系来表示。对于几何表示，我们主要关心的是物体的表面（毕竟里面看不到），因此我们可以用最基础的Point Cloud，即一系列3D点的集合来表示。也可以再增加点与点之间的连接关系，通过一系列的面片来表示，也就是Mesh。