中国地质大学（北京）康志忠：室内实景三维重建技术综述 | 《时空信息学报》2024年第1期

金陵一棵树 2024-03-27 发布于江苏

展开全文

本文内容来源于《时空信息学报》2024年第1期

室内实景三维重建技术综述

康志忠1，杨俊涛2

1中国地质大学（北京）土地科学技术学院，北京 100083；
2山东科技大学测绘与空间信息学院，青岛 266590

基金项目: 国家自然科学基金项目（42371453，42201486）

作者简介: 康志忠，研究方向为激光雷达技术、三维建模及月球与行星遥感。E-mail: zzkang@cugb.edu.cn

通信作者: 杨俊涛，研究方向为激光雷达语义理解与植物表型监测。E-mail: jtyang@sdust.edu.cn

摘要：构建语义丰富、几何精确且拓扑完备的室内三维模型是实景三维中国建设中一项富有挑战性的任务，在室内导航与位置服务、虚拟现实、智能家居等领域都有重要的应用价值。室内空间结构布局复杂、实体要素类型多样及杂乱遮挡等因素给室内实景三维重建带来诸多挑战。近些年，室内实景三维重建受到广泛关注，然而关于现有方法的系统性总结仍较为欠缺。本文对室内实景三维重建最新技术的研究进展进行整理和归纳。首先，简要总结当前主流的室内空间三维数据采集手段；其次，从室内实景三维模型构建过程中涉及的关键环节出发，从实体要素语义识别和分类、实体要素几何模型生成、空间拓扑特征组织与表达方面对现有方法及其优缺点进行综述；最后，对室内实景三维重建相关研究现存的技术挑战进行分析总结，并对未来研究趋势进行展望。

关键词：室内实景三维；数据配准；实体要素分类；空间拓扑模型；实体要素几何模型

康志忠, 杨俊涛. 2024. 室内实景三维重建技术综述. 时空信息学报, 31(1): 1-10
Kang Z Z, Yang J T. 2024. Review of indoor real scene 3D reconstruction technology. Journal of Spatio-temporal Information, 31(1): 1-10, doi: 10.20117/j.jsti.202401001

1 引言

由于城镇化的快速推进，商业中心、交通枢纽、停车场等大型公共场所空间结构日益复杂，随之而来的城市建筑信息更新也越来越快，传统的二维建筑数据已逐渐无法满足人们对建筑分析、管理及应用的需求（Kang等，2020）。随着实景三维中国建设战略的深度推进，室内实景三维作为部件级的组成部分，在室内导航与位置服务、虚拟现实、智能家居等领域具有极大的应用价值（周捷等，2023）。然而，当前室内实景三维重建的方法多为手工或人机交互的半自动化，建模周期长且成本高，无法满足大批量快速生产的迫切需求（李华蓉等，2021）。因此，自动构建语义属性丰富、几何结构精确且拓扑特征完备的室内实景三维模型逐渐成了地理信息科学和遥感领域的热点研究问题。

室内空间复杂结构布局、实体要素类型多样及杂乱遮挡等因素给室内实景三维重建带来诸多挑战（Schwing等，2012）。近些年，建筑结构和设计风格变得灵活多样，然而现有几何模型重建方法对于满足弱曼哈顿世界假设的室内实体要素（如圆柱形墙体、L形布局）稳定性较差。而且，在室内走廊等人造结构化场景中，墙面、地板等区域因弱纹理扰动的不确定性，难以正确估计视差，进而导致视觉三维重建结果出现“空洞”现象（Bleier等，2022）。此外，与室外不同，室内空间因受墙体、门窗等建筑构件要素的限制，其拓扑特征（如连通性、包容性或邻接性）无法在欧氏空间进行有效组织和表达（韩李涛等，2022；Kang等，2020）。

为了应对这些挑战，近年来诸多国内外研究开展了与室内实景三维重建相关的工作，并取得了显著的进步。通过在Web of Science中搜索关键词，包括“室内场景”“室内环境”“三维重建”“室内建模”“深度估计”“同步定位和建图（simultaneous localization and mapping，SLAM）”“语义理解”“拓扑重建”和“室内外一体化”等，总结了2010～2024年室内实景三维重建相关的出版物数据统计（图1）。从聚类分析来看，近些年室内实景三维重建相关研究从整体而言逐渐受到广泛关注，尤其是深度学习和语义建模，关键词之间共现关系较强，且有多个节点为各热点选题子群之间起到桥梁作用，通过该节点连通其各个热点选题。因此，本文对室内实景三维重建技术进行了系统综述。首先，梳理和总结当前主流的三维室内空间数据采集手段；其次，详细分析与室内实景三维重建关键技术的研究进展，并根据建模过程中涉及的不同研究主题，重点介绍相关方法及其优缺点；最后，讨论相关研究的技术挑战和未来趋势。

图1 与室内实景三维重建相关的出版物统计数据

Fig.1 Statistical data on publications related to indoor real scene 3D reconstruction

2 三维室内空间的数据采集方式

随着传感器和计算机视觉技术的快速发展，可用于室内三维空间数据采集的传感器，如光学相机、激光雷达（light detection and ranging，LiDAR）越来越多，其搭载平台也越来越多样化，从固定平台到移动平台，如无人机、机器人、智能手机，而且基于移动平台的数据采集方式逐渐成为近几年的热点领域（杨震等，2023）。本文从数据源的角度将室内三维数据采集方式总结为三种类型，即基于摄影测量、基于LiDAR和基于多源数据融合的方式。

2.1 基于摄影测量的方式

基于摄影测量的方式是利用相机拍摄室内场景的多幅影像，并根据相机的内外方位元素、影像之间的关系及三维空间的几何特征，重建出室内场景的三维模型。影像的获取主要涉及摄像机标定、摄影站布设与摄影方式这几个方面。摄像机标定是为了确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，建立摄像机成像的几何模型，这些几何模型参数主要涉及相机的主距、像素大小、像主点位置和畸变系数等。在相机标定完成之后，可以通过已知的内外方位元素将像素坐标转换为真实世界中的三维坐标。

利用基于摄影测量方式的优势在于价格低廉、可以生成效果逼真的三维纹理模型，且自动化程度较高，极大地节约了人力物力成本（李雪和朱明荣，2023）。然而，这种方式的三维重建质量非常依赖于帧间的配准精度。由于室内场景结构复杂，光照变化显著，这严重影响图像间的匹配性能（Quattoni等，2009）。因此，国内外研究通过优化光度误差函数（如局部光度一致性和全局可见性约束）以测量图像块之间的相似度，有效地提高了特征匹配的效率和质量，生成高质量的多视图匹配（Furukawa和Ponce，2010）。除了光照变化干扰之外，室内场景弱纹理现象也普遍存在，这会导致图像误检和漏检关键点，进而影响后续的匹配和三维重建效果（陈明伟和杨洋，2015）。面对室内场景弱纹理难以捕获关键点的难题，其他辅助信息如阴影、平面共面性、平面平行性、平面垂直性等，也逐渐被用作重要约束因素对重建场景进行校正，以增强三维场景重建效果（Langguth等，2016）。

近年来，随着深度学习在语义分割和立体匹配等领域取得巨大突破，基于深度学习的方法通过构建端到端三维重建架构从大量数据中学习特征提取、立体匹配及代价函数正则化，并可以聚合上下文语义信息，在普适性、重建精度等方面展现出优于传统方法的性能（Häne等，2017；杨航等，2023）。相比于传统方法，基于深度学习的方法利用其金字塔网络结构挖掘不同尺度的上下文语义信息，避免了先验知识构建特征矩阵带来的误差等问题，重建的完整度和整体质量得到了很大提升（王云艳等，2023）。但是基于深度学习的方法在挖掘高层次特征过程中丢失了空间信息，这将降低重建精度（杨航等，2023；鄢化彪等，2023）。因此，进一步引入特征金字塔结构、注意力机制、从粗到精等策略，重建的效果会有很大的提升空间（鄢化彪等，2023）。

2.2 基于LiDAR的方式

与基于摄影测量的方式需要通过影像之间几何关系生成三维坐标不同，基于LiDAR的方式是利用飞行时间（time of flight，TOF）测距等成像技术恢复场景或被测物体的三维空间结构。基于LiDAR的方式是通过给目标连续发送激光脉冲，然后用传感器接收从物体返回的信号，通过计算激光发射和反射时间差或相位差，来换算距被拍摄景物的距离以产生深度信息，进而生成真实世界中的三维坐标（任飞等，2022）。

作业视野范围有限、场景遮挡等因素导致无法通过单一视角的数据采集获得室内环境完整的三维激光雷达数据（Yang等，2016；Zhou等，2016）。因此，需要从多视角出发开展若干次数据采集，通过数据配准实现空间基准统一。通过在Web of Science中搜索关键词，包括“室内配准”等，得到与室内数据配准相关的关键词聚类图谱并在此基础上进一步进行自动聚类分析的结果，如图2所示。通过对配准相关关键词之间的相关性进行统计和分组，发现LiDAR点云数据和机器视觉在室内三维数据获取方面研究越来越受欢迎。而且从整体上来看，相关选题范围之间连接度较高，不少关键词之间可相互搭配，共同对新技术、新方法展开探索。

图2 与室内数据配准相关的出版物统计

Fig.2 Statistical data on publications related to indoor data registration

纵观近些年的研究状况，室内数据空间基准统一的方法大致分为基于优化的配准算法和基于深度学习的配准算法。在基于优化的配准算法中，Besl和McKay（1992）的迭代最近点（iterative closest point，ICP）算法应用最为广泛，然而其对初始姿态敏感，容易陷入局部最优。尽管一些全局优化方案（Yang等，2016；Zhou等，2016），缓解了局部最优的困境，但基于优化的配准算法仍难以在效率和精度上保持平衡。随着深度学习技术的发展，基于深度学习的配准算法得到广泛关注（Lu等，2019）。借鉴深度学习网络在特征描述与场景泛化能力上的出色性能，国内外相关研究（Sun等，2022；Wang和Solomon，2019；Huang等，2020；Wang等，2021），更多关注稳健的局部（全局）特征表达，以实现多视角数据间同名特征关联。这些研究结果也表明了基于深度学习的配准算法比基于优化的方法具有更高的效率和稳健性（Wang和Solomon，2019；Sun等，2022）。

在实际采集过程中，数据遮挡、操作不当等原因会导致多视角数据仅有低（部分）重叠，这使得数据配准更加困难（Shelhamer等，2017；Huang等，2021）。因此，在低（部分）重叠情况下实现多视角数据的稳健配准成为研究热点。诸多学者通过捕获待匹配数据间的重叠区域，由此放大其在低（部分）重叠多视角数据配准中的作用来实现配准（Raposo和Barreto，2017；Huang等，2021）。众所周知，室内外一体化重建与表达近几年也受到广泛关注。但是建筑物内外空间结构差异使得室内外多视角数据间没有或缺少重叠区域，导致配准精度降低。国内外相关研究将窗户的几何形状作为连接室内外多视角数据的重要先验信息，通过全局最优化匹配方法实现了室内外多源数据的无缝配准（Kang等，2014；Girshick等，2014；Shelhamer等，2017）。

2.3 基于多源数据融合的方式

基于多源数据融合的方式通过整合LiDAR、相机、惯性测量单元（inertial measurement unit, IMU）等传感器的优势，有效地提升数据采集的可靠性和稳健性。根据信息耦合程度，这种方式分为松耦合和紧耦合。前者是使用独立模块分别处理不同传感器数据，通过融合算法实现多传感器运动估计，进而实现三维场景的重建。后者则是直接融合不同传感器数据进行位姿估计和地图构建的联合优化，从而生成准确的三维重建结果。Qin等（2019）开源了基于优化的多传感器状态估计器（visual-innertial state(VINS)-fusion），提供了单目相机+IMU、立体相机+IMU等多源数据融合方案；Karam等（2021）设计了通过平面特征增强的LiDAR+IMU多源数据融合方案的室内场景三维重建系统。大量的研究表明紧耦合的方式相对于松耦合精度更高。

由于传感器感知特性差异，现有多源数据融合方案面临着各种场景退化问题。如长时间弱纹理环境运行，相机因无法有效感知纹理信息，进而导致退化失效（张庆鹏和曹宇，2021）。因此，国内外研究尝试引入场景中更为稳健的几何结构信息，如线（面）特征（Pumarola等，2017）、甚至语义特征（Jeong等，2018），以获取更多优化的观测信息进行互补性融合。然而，现有多源数据融合的研究中，多数方案仅限于使用多源数据所提供的先验约束，避免退化情况的出现（张善福和胡步发，2023），较少对约束条件在联合优化中的贡献进行分析。

3 室内实景三维重建方法

在获取三维室内空间数据后，通过数据处理得到建筑物的外部轮廓、内部结构、语义属性及拓扑特征，进而生成语义属性丰富、几何结构精确且拓扑特征完备的室内实景三维模型。本文将从实体要素语义识别和分类、实体要素几何模型生成、空间拓扑特征组织和表达三个环节涉及的关键技术展开介绍。

3.1 实体要素语义识别和分类

室内场景目标类别丰富而且房间类别（如走廊、书店和厨房）差异大，实体要素类型直接决定了后续室内空间几何和拓扑模型建模的方案设计（Wang等，2018；熊汉江等，2018；Chen等，2021）。因此，对室内空间实体要素语义属性的识别和分类在室内实景三维模型构建过程中起着重要的作用。目前，关于室内实体要素语义属性的识别和分类的方法大致可以分为两类，即传统机器学习的方法和深度学习的方法。

传统机器学习的方法大多需要针对特定类型的实体要素，依赖于人为设计的视觉特征，并设计不同的语义识别和实体要素分割方案，实现直接从数据中提取和分类室内空间典型实体要素（顾广华等，2016）。基于人为设计特征的一般分类框架通常包括自底向上的分割、特征提取和分类等阶段。传统机器学习的方法一般需要依赖先验知识来设计低级视觉特征，智能化水平低，最终得到的语义标注结果取决于每个阶段的性能优劣，难以适应密度不均匀、遮挡等复杂场景情况（Wang等，2018）。由于所面对的室内场景的复杂性和多变性，仅仅利用底层视觉特征，如几何特征和光谱特征，往往不能取得理想的分类结果，因此，一些研究也试图通过视觉词袋模型、主题模型等挖掘描述场景描述能力更好的中层视觉特征，以提高分类的精度（Wang等，2018）。

鉴于深度学习在图像分类和语音识别等领域展现出强大的特征表达能力，逐渐有研究将深度学习思想引入室内场景语义理解和实体要素识别任务中，并取得了良好效果（Hedau等，2009；Del等，2012；Chen等，2021）。与传统机器学习方法相比，基于深度学习的方法可以达到更高的准确度，且泛化性更好（Hedau等，2009；Del等，2012；Charles等，2017）。基于深度学习的端到端框架利用金字塔层次结构提取和聚合不同尺度的视觉信息，进而表现出更优越的语义分割性能。因此，众多研究通过建立图像卷积神经网络（Landrieu和Simonovsky，2018）、注意力机制（Chen等，2021）、循环神经网络（Ye等，2018）等模型，将上下文空间信息引入到三维数据视觉特征的表达学习任务中，提高三维数据特征空间信息表达能力，捕获和聚合三维数据中的显著视觉特征，实现高质量的室内场景实体要素分类和识别（熊汉江等，2018）。

3.2 实体要素几何模型生成

几何模型通过具象化描述室内实体要素几何信息，如墙体、门窗、楼梯等室内构件的几何尺寸及位置坐标，实现室内三维空间几何结构的精确表达。室内三维几何模型的构建在建筑工程、城市规划、文物保护等领域有着广泛应用。通过在Web of Science中搜索关键词，包括“室内几何”等，统计了与室内几何模型相关的出版物，并利用关键词之间的相关关系做共现分析，如图3所示。从整体来看，近些年室内几何的研究热点较为多元和分散，涉及语义分割、布局估计、三维融合等领域，对其进行聚类分析，可以看出多个节点在连通各个热点选题子群中起着桥梁作用。二维建筑平面图因其丰富的建筑语义信息成为室内三维几何模型构建的有效数据源之一（Li等，2010a）。但大多数建筑平面图的不同细节层次形式导致了建筑结构表达的模糊或不一致，因而未能实现从二维建筑平面图生成三维建筑模型的完全自动化（Previtali等，2018）。

图3 与室内几何模型相关的出版物统计

Fig.3 Statistical data on publications related to indoor geometric models

随着室内三维空间数据采集方式的多样化，有研究正在尝试直接从三维数据中利用正态分析（Ning等，2019）、最小二乘（Edelsbrunner，2010）、区域增长（Edelsbrunner，2010）、随机抽样一致性（random wample consensus，RANSAC；Previtali等，2018）或贝叶斯抽样一致性（Bayesian sample consensus，BaySAC；Kang等，2016）等稳健估计方法提取能够代表复杂室内空间结构的关键点、线、面等基元，并对彼此关系进行参数（矢量）化建模。Jung等（2014）、Previtali等（2018）利用RANSAC算法提取平面基元，并对建筑物主体轮廓结构进行参数化。Michailidis和Pajarola（2017）则关注更为逼真的墙面模型，利用贝叶斯图割算法对室内遮挡场景的墙面门窗进行建模。由此可见，目前三维几何模型主要侧重于主体结构元素（如墙壁、天花板和地板）或墙壁表面特征（如门窗）的重建。尽管这些方法提高了三维几何模型重建的效率，但是它们一般是基于强曼哈顿世界假设，从而限制了其适用性（Jung等，2014）。除了建筑主体结构几何模型之外，部分研究也通过使用模型检索方法，对室内空间内部实体要素（如桌椅）进行更精细化的建模，以生成更完整的室内场景模型（Chen等，2014；Liu等，2015；Li等，2015）。

事实上，深度学习在实体要素几何模型生成方面也逐步发挥重要的作用。许多研究已经在利用深度学习提供语义信息来驱动三维建模过程、优化结果质量和处理效率等方面做了探索，并取得了一定的成果。如Wang等（2018）利用条件生成对抗性网络优化遮挡情况下语义化点云的建筑物线框图构建；Fang等（2021）借助从三维数据中感知到的室内空间墙体、地板和天花板等建筑主体构件要素引导mesh格网模型的重建过程，显著降低了mesh格网模型的复杂度；Wang等（2022）在利用点云数据进行室内三维语义模型重建任务中，通过深度学习产生的语义信息引导场景部件的分割；Chuang和Sung（2021）使用预训练的单阶段三维目标检测（3D single stage object detector，3DSSD）模型（Yang等，2020），从三维点云数据中定义和识别建筑构件的角点，然后以预训练的图神经网络模型为基础框架来表达角点间的相互关系，实现学习驱动的建筑物模型矢量化。

3.3 空间拓扑特征组织和表达

室内空间由于受建筑主体结构的约束，呈现出有界性的特定。通过拓扑特征组织和表达，确保生成室内三维模型的空间拓扑一致性。针对室内空间拓扑特征的表达，室内空间拓扑模型的存在形式多样，如规则格网（Li等，2010b）、不规则格网（Demyen和Buro，2006）、节点关系图（Yang等，2021）等。图4总结了室内空间拓扑中的主要数据源与拓扑表现形式。

空间拓扑模型自动生成的方法与室内空间结构密切相关，不同室内场景会存在不同形式的空间布局和拓扑特征，并且基于不同数据源的构建方法被开发出来。计算机辅助设计（computer-aided design，CAD）数据、建筑信息模型（building information model，BIM）的工业基础类标准（industry foundation class，IFC）和城市地理标记语言（city geography markup language，CityGML）等带有室内场景中精准的几何信息和丰富的语义信息，但较少关注室内空间之间的拓扑关系信息。因此，大量研究以这些原始数据为基础，制定一系列数据转换（如语义匹配、几何转换、拓扑分析等）手段（Teo和Cho，2016；Fu等，2020；Chuang和Sung，2021）。从CAD、IFC或CityGML数据中自动识别和建立可用于室内导航和路径规划等应用的室内拓扑空间模型，但基于这些数据提取的空间拓扑特征缺乏时效性。

LiDAR和摄影测量技术的发展使得室内三维空间信息的实时高效采集成为可能，逐渐受到室内空间拓扑特征组织相关研究的关注（Blochliger等，2018；Yang等，2021；郭慧霞等，2023）。在基于离散三维点云数据组织室内空间拓扑特征任务中，Yang等（2021）通过模拟门扇的移动将其恢复到全闭状态，来纠正导航功能空间的拓扑连通性；Nikoohemat等（2020）分别建模单门扇和双门扇的门目标，并将其作为反映室内空间拓扑连通性的依据，同时利用平面提取方法分割和建模楼梯台阶实现跨楼层空间拓扑连通性的组织。与基于CAD图、BIM和CityGML数据的室内空间拓扑组织方法相比，利用点云数据的室内空间拓扑特征组织方法更具时效性，能有效保证模型的现势性和准确性（Yang等，2021）。而且，各种移动终端（如智能手机等）产生室内空间的海量移动轨迹数据（Blochliger等，2018），也为室内空间的复杂拓扑结构重建和多样空间约束，如连通约束、障碍约束，提取提供了新思路。

图4 室内空间拓扑中的主要数据源与拓扑表现形式

Fig.4 Major data sources and topological representations in indoor spacial topology

4 发展趋势及挑战

在对当前室内实景三维重建相关的最新技术概述基础上，本文讨论了当前技术所面临的主要挑战及未来的发展趋势，图5梳理了未来研究趋势之间的相互关系。

（1）多传感器集成可移动室内实景三维测图。室内空间杂乱遮挡、特征缺失、动态干扰等因素，给三维测图系统的稳定性和可靠性带来诸多挑战（Jeong等，2018；Bleier等，2022；张善福和胡步发，2023）。因此，在复杂动态室内场景中实现可移动、大范围、多传感器集成的室内空间高精度测图是一个亟需解决的难题。

（2）多细节层次的室内实景三维模型构建。为了更好地满足室内空间精准导航和位置个性化服务应用需求，自动构建覆盖家具等室内内部实体要素的多细节层次室内三维空间模型是非常必要的（Diakité和Zlatanova，2018；Jiang等，2023）。

（3）室内实景三维模型轻量化。当前客户–服务器（client-server，C/S）架构的三维可视化平台不够轻量化，制约了实景三维重建技术的落地及应用推广（张韵等，2023）。室内实景三维模型轻量化将可视化脱离专业应用软件的桎梏，减少对软硬件资源配置的需求，是亟需解决的研究热点。

（4）室内外一体化实景三维模型。室内外环境物理结构差异、室内与室外三维数据重叠低、室内遮挡严重及场景对称重复等因素，使得室内外三维空间难以实现一体化建模与表达（Koch等，2016）。因此，在没有或缺少重叠区域情况下将室内和室外模型稳健地配准在一起，是当前室内外一体化实景三维重建相关领域研究关注的重点之一。

5 结束语

本文全面分析和总结了当前室内实景三维重建的关键技术。首先，简要描述了有关三维室内空间的数据采集方式；其次，根据原理和应用需求对现有的室内实景三维重建相关研究进行分类与总结。

图5 未来研究趋势关系

Fig.5 Relationships in Future research trends

与直接对不同方法进行定量分析不同，本文重点介绍了相关理论及其优缺点。在实体要素几何模型构建方面，现有方法大多着重关注在建筑主体结构的重建上，而室内家具重建和室内外空间的三维模型衔接技术还处于起步阶段。虽然室内环境的杂乱和遮挡缺陷给语义重建带来了巨大挑战，但深度学习和强大的数据运算能力，提高了模型学习的泛化能力，从而获得更好的语义标注结果。此外，深度学习框架下的层次化金字塔结构可以实现多任务协作，该方法能够充分利用冗余和互补信息从不同角度相互进行优化，在室内环境三维重建中具有极大的应用潜力。