分享

清华最新综述:NeRF 自动驾驶会擦出怎样的火花?

 扫地僧一一 2024-05-21 发布于安徽
论文标题:
Neural Radiance Field in Autonomous Driving: A Survey
论文作者:
Lei He, Leheng Li, Wenchao Sun, Zeyu Han, Yichen Liu, Sifa Zheng, Jianqiang Wang, Keqiang Li
作者单位:清华大学,香港科技大学信息中心
编译:蒙牛二锅头
审核:Los

导读:

本综述结构化地分类了NeRF在自动驾驶中的应用,具体涵盖了感知、三维重建、同时定位与建图以及仿真等领域。这是首个专门聚焦于自动驾驶领域NeRF应用的综述。©️【深蓝AI】编译

图片

NeRF因其固有的优势,尤其是其隐式表示和新颖视角合成能力,引起了学术界和工业界的极大关注。随着深度学习的迅速发展,众多方法涌现出来,旨在探索NeRF在自动驾驶领域的潜在应用。然而,目前该技术在文献方面明显存在空白。为了弥补这一差距,本文对NeRF在自动驾驶背景下的应用进行了全面的综述。本文的综述结构化地分类了NeRF在自动驾驶中的应用,具体涵盖了感知、三维重建、SLAM以及仿真等领域。本文深入分析了每个应用类别,并总结了研究发现,最后就该领域未来的研究方向提供了见解和讨论。希望本文能成为该领域研究者的综合性参考资料。

图片

NeRF是一种先进的视觉合成技术,通过体积渲染和神经场景表示,细腻地展现了3D场景复杂性,自2020年ECCV亮相后迅速引领视觉质量革新,并激发后续研究。在自动驾驶快速发展的背景下,从依赖高精地图转向实时环境感知,以及从L2向L4自动驾驶过渡的趋势中,NeRF凭借自我学习能力对局部环境的深入理解,成为提升自动驾驶能力的有力工具。

过去两年,NeRF广泛应用于自动驾驶的多个层面:感知、三维重建、SLAM同步定位与地图构建,以及模拟。

图片

图1|神经辐射场在自动驾驶中的分类体系©️【深蓝AI】编译


在感知领域,NeRF擅长提取精确几何信息,促进物体识别、语义分割等,分为“数据增强型”和“模型协作型”两种应用模式。三维重建上,它分为动态场景重建、表面重建和逆向渲染三大方法。SLAM应用中,NeRF通过优化图像渲染和位姿估算、增强地图精度,支持单独或联合的定位建图功能。模拟应用则分为编辑场景动态元素生成新数据和结合LiDAR数据模拟不同视角场景两类型。

本文综述了NeRF在自动驾驶核心技术中的最新应用,分类探讨了其在各领域的贡献,指出研究空白,并展望未来研究方向,为自动驾驶技术的深化研究提供了全面参考。

本工作的主要贡献如下:

1)这是首次全面回顾NeRF在解决自动驾驶核心技术中的应用。

2)本文提供了最新的NeRF-AD(NeRF在自动驾驶中的应用)方法,根据其核心原理和下游应用进行了系统分类。

3)本文对NeRF-AD进行了全面讨论,提供了关键研究缺口的洞察及未来研究方向的建议。

图片

NeRF是一种由Mildenhall等人于2020年首次提出的先进技术,它能利用二维带有位置信息的图像作为指导,创造出高度逼真的复杂场景视角合成。NeRF将场景视为一个五维的向量值函数,通过MLP网络实现,该函数输入场景中的点坐标和观察角度,输出该点的颜色和体积密度。这一过程分为两步:首先,网络根据点坐标输出密度和特征向量;随后,将特征向量与观察方向结合以确定该视角的颜色,这样既确保了颜色受观察方向影响,又保持了密度只依赖于场景内部坐标。

NeRF利用体积渲染技术计算沿相机光线的颜色,通过积分沿途的密度和颜色信息实现。光线的透射率反映了光线在场景中不受阻碍传播的概率,而积分过程中考虑了密度和颜色随光线路径的变化。为提高模型对细节的捕捉能力,NeRF采用了位置编码技术,通过对场景坐标和观察方向进行特定的正弦余弦变换,增强模型对高频特征的表达能力。

模型的训练通过最小化预测颜色与真实图像颜色之间的平方差损失进行,对每个像素的多条相关光线进行采样和计算,以此优化网络参数。整个NeRF框架通过这些机制有效地从多视图图像中学习场景的三维表示,并能够渲染出之前未见过的新视角,这对于自动驾驶等需要精细场景理解和重建的任务具有重要意义。

图片

NeRF在自动驾驶感知任务中展现出重大潜力,这些任务可以分为两大分支:数据增强和模型训练。数据增强涉及利用NeRF创新的视角合成能力对训练数据集进行照片级真实感的扩充,而模型训练则涉及到将神经渲染集成到训练过程中以捕捉几何细节并提升性能。本文详细阐述了这两个分支的流程,如图2所示。

图片

图2|NeRF在自动驾驶感知中的应用概览:(a) NeRF可通过生成数据或收集的真实数据重建场景来进行数据增强。(b) NeRF的隐式表示和神经渲染可以整合到模型训练中以提升性能©️【深蓝AI】编译


■4.1 数据增强

驾驶场景复杂多变,难以全面捕捉,数据增强技术能有效扩充训练数据并提升模型表现。传统方法通过图形引擎合成数据,但存在仿真与现实差异。NeRF技术因能生成接近真实的图像而缩小了这一差异。

Drive-3DAug项目引领了3D数据增强在基于摄像头的3D感知中的应用,展示NeRF在创建多样化驾驶场景和增强模型性能上的有效性。与2D图像增强相比,3D增强通过改变场景的深度信息,能更大幅度提升模型性能。

图片

图3|Drive-3DAug的工作流程©️【深蓝AI】编译


Lift3D结合GAN和NeRF生成用于3D感知的训练数据,特别是通过StyleGAN2和ShapeNet模型合作,优化了数据合成过程,降低了标注成本,并提升了图像合成的灵活性。

Adv3D专注于在NeRF中构建对抗性样本,通过针对性的采样和正则化策略增强了3D识别系统的安全性与鲁棒性,同时展示了对不同姿态、场景及检测器的强大泛化能力。这些研究不仅推动了3D视觉技术的进步,也强调了对抗性训练和数据增强在保障如自动驾驶车辆等领域的安全应用中的重要性。

■4.2 模型训练

多项研究探索了NeRF在数据增强中的应用,但更重要的是,它作为一种强大的工具被集成到模型中以增强性能,特别是在3D感知任务上。NeRF通过隐式场景表示和神经渲染技术,连接3D场景与2D图像,擅长场景重建和视图合成,这对于理解场景结构、完成遮挡区域以及提高各种3D识别能力至关重要。

BTS创新性地将体积渲染应用于单视图三维重建,通过隐式密度场理解场景几何,而非仅仅依赖深度预测。其他工作,如S4C,结合语义信息到NeRF框架中,促进了语义场景的完整理解。此外,SimpleOccupancy等研究展示了NeRF在占用预测任务中的潜力,而UniOccRenderOcc通过整合2D-3D表示和时间信息,进一步推动了这一领域的发展,特别是在资源有限的情况下也能取得良好性能。

MonoNeRD项目利用NeRF改进3D目标检测,克服传统方法中的稀疏性和信息丢失问题。另一方面,MV-Map项目展示了如何利用NeRF的多视图一致性特性来生成高质量的离车高清地图,强调了语义信息在表面附近的可靠性。

PRED研究通过在LiDAR点云预训练中应用体渲染概念,证明了NeRF技术不仅限于图像处理,还能促进点云表示学习,尤其是在缺乏颜色信息的情况下,通过语义和深度监督来增强点云的理解和应用。

UniPAD则进一步提出了一种灵活的预训练方法,能够无缝融入二维和三维框架中。该方法包含两个组成部分:一个针对不同模态的编码器和一个体积渲染解码器。对于点云数据,采用了一个三维主干网络来进行特征提取;而对于多视图图像数据,则使用了二维主干网络来抽取图像特征,之后这些特征会被转换成三维体素表示。

图片

如表1所示,本文将3D重建问题细分为三个子问题:动态场景重建、表面重建和逆向渲染。

图片

表1|NeRF重建研究的分类体系©️【深蓝AI】编译


■5.1 动态场景重建

神经场景图(NSG)首次提出利用神经场景图及其间的变换矩阵来重建3D动态场景。每个节点被分类为动态节点或静态节点,前者代表如车辆和行人的动态对象,通过3D边界框在每一时间戳中标识;后者则作为静态背景。每个节点通过类别共享的多层感知机和实例特定的学习嵌入来表示。在光线投射过程中,NSG先通过轴对齐包围盒与光线的交集算法分离每个节点,再让MLP处理归一化坐标,最后按深度顺序以组合方式执行体积渲染。这种场景图表示法统一支持了场景中对象的插入、修改、移除及从新视角渲染。

Block-NeRF针对大规模驾驶场景的3D重建,采取分而治之策略,将整个场景分割成独立块,每块由特定的MLP网络表示。训练时,利用语义分割屏蔽动态物体(如车辆和行人)。Block-NeRF借鉴NeRF-W学习外观代码,以便控制渲染图像的光照和天气。推理时,能为同一区域生成多样化的光照效果。

图片

图4|通过学习同一地点每次采集的潜在嵌入,Block-NeRF能够通过改变这些潜在嵌入来控制渲染图像的光照效果©️【深蓝AI】编译


神经点光源场等方法利用LiDAR点云初始化并学习光场以重建驾驶场景,通过多头注意力模块聚合最近点的特征预测光线颜色。

READ和DGNR等也利用点云作为3D表示的基础来学习点云渲染器。

MapNeRF和Neural Radiance Fields with LiDAR Maps整合地图信息,增强神经辐射场在驾驶场景中的应用。

SUDS通过分解场景为静态、动态和远场辐射场的独立数据结构来重构大规模场景。

EmerNeRF无需依赖3D边界框或预训练深度估计模型,以自惊讶方式学习动态场,并提议融入2D基础模型特征如DINOv2以改善训练效果。

UC-NeRF在未校准相机设置下训练NeRF,提出了一系列方法解决颜色不一致性和姿态校准问题。

■5.2 表面重建

FEGR利用混合表示法内部分解驾驶场景,学习显式网格、空间变化材质和HDR照明。

StreetSurf发展了一种基于哈希表的多视图隐式表面重建方法,针对街道视图,将场景按距离摄像机的远近分解为三部分分别处理。

■5.3 逆向渲染

UrbanIR从单个驾驶场景视频中推断形状、反照率和可见性,提出了便于高精度阴影体积估计的可见性损失函数。

LightSim是一个神经照明相机模拟系统,可生成多样化、真实且可控的数据,支持场景的物理上精确重光照。

■5.4 其他方法

MINE学习通用的多平面图像特征网格用于新视角合成。

PVG、DrivingGaussian和Street Gaussians利用3D高斯点散射技术实现高质量的动态驾驶场景重建和实时渲染。

图片

鉴于NeRF根据姿势和视图方向渲染图像的强大能力,自然而然地,众多研究者考虑并探索了将NeRF与姿态估计及SLAM相结合的可能性。相关研究大致可以分为两大类:一类是利用NeRF进行姿态估计,另一类是利用NeRF进行场景表示。

■6.1 NeRF进行姿态估计

近期出现了几种利用NeRF进行实时姿态估计的具体方法,这些方法主要可分为两大类:三维隐式表示法和三维特征提取法。

●三维隐式表示法:

1)iNeRF展示了一种“反向”的流程,如图5所示,通过预先训练的NeRF优化姿态估计。从估计的姿态生成渲染像素,然后通过渲染像素与观测像素之间残差的反向传播进行优化。

图片

图5|iNeRF的“类反转”流程©️【深蓝AI】编译


2)NeRF-Navigation进一步结合基于动态模型的过程损失和光度损失来滤除跟踪结果,避免姿态初始化问题。除了直接比较观测图像和渲染图像。

3)NeRF-VINS将观测图像与从当前估计姿态带有小偏移量的NeRF生成的图像匹配,以更新姿态估计。作者声称,合成图像应与观测图像有较大的视野重叠,这对匹配和姿态估计有利。

4)IR-MCL提出了一种基于2D LiDAR的室内蒙特卡洛定位方法,通过神经网络而非像NeRF那样基于体积密度来预测占用概率进行定位。由于输入输出都是轻量级的,IR-MCL实现了令人印象深刻的实时性能和泛化能力。考虑到NeRF在新颖视角合成方面的出色能力。

5)LENS将NeRF应用于基于学习的位姿回归器训练数据集中,以实现实时定位。类似地,IMA根据SFM生成的稀疏重建训练NeRF模型,然后通过训练后的NeRF对其进行增密以增强重新定位。

●三维特征提取法:

上述方法都要求在场景中有一个训练良好的NeRF。一些研究者将NeRF视为一种具有良好泛化能力的三维特征提取器,适用于不同场景。

1)NeRF-Loc设计了一个仅基于几张支持图像和深度的泛化NeRF,从采样的三维点生成三维描述符。从查询图像中提取二维描述符以获得三维-二维对应,并通过PnP以粗到精的方式估计相对姿态。

2)NeRFels也注意到了NeRF的三维表示能力。NeRFels不是过度拟合整个场景的模型,而是用可渲染代码表示与场景无关的局部三维块,提高了泛化能力。NeRFels中进行了一次联合的PnP 光度优化,无论对于手工制作还是学习到的局部特征,都提高了宽基线姿态估计的准确性。

■6.2 NeRF场景表示

与通过NeRF优化姿态估计相反,NeRF在SLAM中的另一种应用是表示整个场景以优化映射性能。根据场景表示的层级,相关研究可分类为MLP级、体素级、点云级和3D高斯级表示。

●MLP级

在SLAM中利用NeRF优化映射性能的想法最初在iMAP中得到探索,它建立了共享同一MLP作为场景表示和相同损失函数的并行跟踪与映射流程。跟踪过程针对固定的场景网络优化姿态,类似于iNeRF的工作流程。映射过程中,在基于信息增益的关键帧选择及由渲染损失引导的主动采样后,整个可微分框架能够反向传播,以联合优化跟踪和映射性能。

●体素级

源自传统基于MLP的NeRF,Instant-NGP将场景编码为多分辨率哈希体素顶点以实现实时重建,这启发了一组基于NeRF的SLAM研究,致力于在体素级别上表示场景。

Orbeez-SLAM首次提出了这种方法,它基于经典单目SLAM算法的位姿估计和关键帧选择结果,使用Instant-NGP进行密集映射。随后的研究NGEL-SLAM包含了闭环检测和全局束调整以细化全局姿态。然而,上述研究主要仅将成熟的SLAM系统(如ORB-SLAM2)集成到NeRF框架中,并未在NeRF内部展现出显著的内在创新。

NICE-SLAM通过层次化的特征体素网格整合多级局部信息,允许粗略、中等和精细级别局部地图的更新,而传统单个MLP受到可扩展性的限制。此外,Vox-Fusion通过基于八叉树结构的增量体素分配,并提出了适合稀疏体素的关键帧选择策略,实现在Replica数据集上跟踪和映射的性能优于NICE-SLAM。

NeRF-LOAM针对激光雷达数据设计了一种神经符号距离函数,能够同时进行追踪、映射及关键扫描选择。其架构如图6所示。然而,由于光线与地图之间的交点查询耗时较长,NeRF-LOAM无法实现实时操作。

图片

图6|NeRF-LOAM的架构©️【深蓝AI】编译


●点云级别

基于点云的场景表示因其结构比网格更为灵活,适合动态分配,因此也被期待能在大规模实时跟踪和映射中发挥作用。Point-SLAM采用了这一策略,根据输入RGBD图像的信息密度动态调整锚点密度,以不同点密度渲染不同细节层次,从而在跟踪和映射方面与其它密集神经RGBD-SLAM方法相竞争。CP-SLAM利用点云表示的轻量级特性,支持单个代理的闭环检测和多代理的SLAM。

●3D高斯级别

随着3D高斯点云技术的迅速发展,越来越多的3D高斯级SLAM系统涌现。这类SLAM通过集成显式的3D高斯表示,利用快速的点云渲染技术提升了跟踪和映射性能。最近,SemGauss-SLAMSGS-SLAM进一步融合语义信息,指导束调整并构建服务于下游任务的语义地图。

■6.3 讨论

基于NeRF的SLAM技术在自动驾驶领域展现出定位与映射潜力,但也面临户外大规模场景适应性、动态环境处理和复杂光照条件等挑战。当前研究多集中于室内,需向轻量级大规模映射结构和动态减影策略发展,并考虑融合雷达等传感器提升鲁棒性。

图片

在这份综述中,本文针对自动驾驶领域,对神经辐射场进行了全面的回顾。具体而言,本文首先介绍NeRF的基本原理和背景知识,随后深入分析NeRF在自动驾驶多个领域的应用,这些领域包括感知、三维重建、SLAM以及仿真。最后,本文针对每一类别中现存的挑战进行讨论并提出可能的解决方案。

图片

SL-SLAM:精度超越ORB-SLAM3,利用深度学习进行特征点检测的鲁棒系统

2024-05-20

图片

为什么RANSAC被称为CV界的“多边形战士”?

2024-05-17

图片

【邀请函】

【深蓝AI】开放授权分享通道,向广大【AI 自动驾驶 机器人】领域的实验室及个人征稿授权,期冀提供一个更方便读者与原作进行沟通交流的平台,也希望能促成更多有意义有价值的合作。

如果你有意通过【深蓝AI】,向更多的人分享自己的最新工作,请点击如下推文了解详情👇

图片

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多