详解多传感器信息融合应用进展

yeshuheng 2022-11-29 发布于浙江

展开全文

1 前言

智能交通系统是车辆有序运行的重要保障，道路环境感知技术是智能交通系统的基础。传感器感知并采集周围环境数据在实现无人驾驶的各个阶段都不可或缺。多传感器信息融合（Multi-Sensor Infor⁃mation Fusion，MSIF）就是利用计算机科学技术将来自各个传感器或多源头的信息和数据在预定的规则下进行数学分析加上信息综合，以完成相应的决策和必要的估算而执行的信息处理过程。在这个过程中要充分地利用多源数据进行合理操作与使用，信息融合不但运用了多个传感器互相协同工作的优势，并且运用算法综合处理了大量其它信息源数据，使得整个传感器系统更加智能，信息融合的最终目的就是基于各个传感器获得的分离观测信息，对信息多级别、多维度分析综合之后推理出更多有价值的信息，对车辆的行为进行决策。在这个过程中，多传感器信息融合算法有着不可替代的决策作用，所有的信息汇总之后经由算法得出最终的决策判断。近年来随着芯片、计算机科学技术的快速发展，硬件算力的提升极大促进无人驾驶算法的发展，

本文从多传感器的硬件配合应用出发，重点介绍近年来用于无人驾驶的信息融合算法的研究与进展，提出基于机器学习的算法研究是未来的发展趋势。

2 传感器应用现状

无人驾驶车辆在面对复杂的路况环境下，需要大量的传感器采集路况信息供车辆综合分析得出决策，单一、同类型的传感器无法满足无人驾驶车辆分析路况信息的需求，在不同的道路环境下，不同传感器有各自的独特优势，目前国内外应用较多的主要分为3类：

（1）基于激光雷达;

（2）基于激光雷达加摄像头；

（3）基于摄像头。

基于激光雷达的定位方法完全依赖于激光雷达传感器，具有测量精度高、处理方便的优点。然而，尽管激光雷达行业努力降低生产成本，但与摄像头比，它仍然有很高的价格。在典型的基于LiDAR+Camera的定位方法中，LiDAR数据仅用于建立地图，并使用摄像头数据估计无人驾驶汽车相对于地图的位置，从而降低了成本。基于摄像机的定位方法是廉价和方便的，但是易受环境的影响，特别是遇到大风、下雨、雾霾的恶劣天气，单纯基于摄像头的定位通常不精确、不可靠。

2.1 激光雷达的应用

激光雷达的工作原理：激光雷达(LiDAR)能释放多束激光，接受物体反射信号，计算目标与自身的距离。应用较多的是利用反射信号的折返时间计算距离（ToF），也有调频连续波（FMCW）方法。激光雷达具有分辨率高、隐蔽性好、抗有源干扰能力强、低空探测性好、轻便灵巧的优点，不足是全天候性能低于微波雷达；波束窄，搜索目标困难；技术上难度较大。在过去的几年中，Mobile LiDAR取得了很大的进步。移动激光雷达捕获不再需要专家精心组装的大量电缆和配件。现在，所有测绘级传感器（例如Velodyne和Ouster的传感器以及RIEGL、Trimble和Leica的测量级平台）都更容易携带，即插即用。从宽的垂直视场或更长的测量范围到多脉冲或更高的精度，每种传感器都有其自身的优势。激光雷达的发展趋势主要有2方面：（1）挑战点密度和机器学习；（2）减少人工干预。

2.2 毫米波雷达的应用

毫米波雷达发射电磁波并检测回波来探测目标物的有无、距离、速度和方位角。主要原理是：通过振荡器形成持续变化的信号，在发出信号和接收信号之间形成频率差，其差值与发射-接收时间差成线性关系，只要通过频率差就能计算车辆与物体距离。毫米波雷达测速原理和普通雷达类似，有2种方法：

（1）基于多普勒原理，因发射的电磁波和被探测目标产生相对移动，回波的频率会和发射波的频率不一样，经过检测频率差可测得目标物相对于雷达的移动速度。但这种方法不能测得切向速度；

（2）通过跟踪位置，进行微分求得速度。毫米波雷达的发展在对雷达传感器选择上是采用短距的24 GHz与长距的77 GHz组合还是全部采用77 GHz雷达一直是技术争论的焦点，首先，77 GHz毫米波雷达的检测精度更高，相对体积更小巧，利于车上器件安装和布局，77 GHz的波长是3.9 mm，是真正意义上的毫米波。由于天线尺寸随着载波频率上升而变小，所以77 GHz波段的毫米波雷达系统尺寸也会比24 GHz更紧凑。77 GHz毫米波雷达正逐步取代24 GHz，成为汽车领域主流的传感器。

2.3 摄像头的应用

车载摄像头是ADAS系统的主要视觉传感器。是实现众多预警、识别类ADAS功能的基础。通过镜头采集图像，由内部感光组件电路及控制组件对图像进行处理并转化为数字信号，从而感知车辆周围的路况，实现图像影像识别功能。在众多ADAS功能中，视觉影像处理系统较为基础，对于驾驶者也更为直观，而摄像头又是视觉影像处理系统的基础，因此车载摄像头对于智能驾驶必不可少。车道偏离预警（LDW）、前向碰撞预警（FCW）、交通标志识别（TSR）、车道保持辅助（LKA）、行人碰撞预警（PCW）、全景泊车（SVP）、驾驶员疲劳预警众多功能都可借助摄像头实现，有的功能甚至只能通过摄像头实现（表1）。车载摄像头包括单目摄像头、双目摄像头、广角摄像头。

表1 各类传感器特点对比

目前，随着ADAS功能模块使用率快速提升，较长时期内传感器市场的需求将主要被摄像头、毫米波雷达、激光雷达这3类传感器所驱动，只有各个传感器互相配合使用，形成优势互补，再加上信息融合算法的优化处理，才能更好的收集和处理无人驾驶中形成的海量环境数据，并给出相对更准确的处理方案。

3 多传感器信息融合的核心算法

无人驾驶感知模块中传感器融合已经成为了标配，只是这里融合的层次有不同，可以是硬件层（如禾赛，Innovusion的产品），也可以是数据层，还可以是任务层，如障碍物检测（Obstacle detection）、车道线检测（Lane detection）、分割（Segmentation）和跟踪（Track⁃ing）以及车辆自身定位（Localization）等。对于多传感器系统来说，时刻要面对多样性、复杂性的环境信息，鲁棒性和并行处理的能力便成了无人驾驶对信息融合算法的最基本要求。运算速度、识别精度、连接前端预处理系统以及后端信息识别系统的接口稳定性、对不同技术和多种方法的上下兼容多方协调能力、对信息样本和信息质量的特殊要求的多种能力也都作为算法性能的考察方面；通常以非线性数学为基础的方法，若同时具备容错性、自适应性、联想记忆以及并行处理的能力，则均可作为融合算法使用。

3.1 随机类

3.1.1 加权平均法

信号级融合最直接的方法是加权平均，对多个传感器测量到的多条冗余信息进行加权平均，将最终的结果作为融合值。该方法直接对数据源进行处理，其所求得的平均数，已包含了长期变动趋势。但是一般用于数据的前期处理，加权平均主要作为辅助算法使用。

3.1.2 卡尔曼滤波法

对一个运动物体，能直观观察到它当前的运动状态。然而，一般都无法精确测量物体当前的运动状态，而更多试验中需要预测物体在下一时刻的运动状态，对现场环境进行测量时，系统会存在相当的干扰噪声。这时就需要估计当前的运动状态,卡尔曼滤波（Kalman filtering）是一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响，所以最优估计也可看作是滤波过程。卡尔曼滤波预测方程见图1。

图1 卡尔曼滤波预测方程和更新方程

该方法通过测量模型的统计特性递推，得出统计意义下的最优融合和数据估算。在无人驾驶中，卡尔曼滤波应用广泛，包括滤波操作-时序信息融合、多传感器的信号融合、在帧间位置插值，通过插值进行加速、对目标框进行平滑处理。卡尔曼滤波器的历史虽已经超过半个世纪,但是对于输入数据的噪声信息和状态估计的平滑来说仍然是最有效的传感器融合算法之一。它假定位置参数是符合高斯分布的,即完全可以被均值和协方差参数化:X∼N(μ,σ-2)，当传感器的信息流开始的时候,卡尔曼滤波器使用一系列的状态信息来预测和衡量更新步骤去更新被追踪目标的信心值(概率)。

3.1.3 多贝叶斯估计法

多贝叶斯估计将每1个传感器作为1个贝叶斯估计，将多个独立物体的关联概率分布综合成1个联合的后验概率分布，通过求联合分布函数的最小似然，得出多传感器信息综合的最终融合值与实际环境的1个先验模型，从而对整个环境产生1个特征描述。贝叶斯估计的本质是通过贝叶斯决策得到参数θ的最优估计，使得总期望风险最小(图2)。

图2 多贝叶斯估计法

北京交通大学的樊俐彤针对运动单目摄像头下的多目标跟踪问题,在基于检测的跟踪方法框架下,对基于Bayes后验估计的多目标跟踪方法进行了研究。采用可逆跳跃马尔科夫蒙特卡洛（RJMCMC）求解Bayes后验估计,该算法通过随机跳跃动作可以随机的增加或移除目标,可以适应目标数目随机变化的情况。

3.2 AI类

3.2.1 基于多传感器体系结构的算法

多传感器融合在体系结构上可分为3种：

（1）数据层融合处理，针对传感器采集的数据，依赖于传感器类型，进行同类数据的融合。数据级的融合要处理的数据都是在相同类别的传感器下采集，所以数据融合不能处理异构数据，流程如图3所示；

图3 数据层融合处理

（2）特征层的融合处理，提取所采集数据包含的特征向量，用来体现所监测物理量的属性，这是面向监测对象特征的融合。如在图像数据的融合中，可以采用边沿的特征信息，来代替全部数据信息有，流程如图4所示；

图4 特征层融合处理

（3）决策层的融合处理，根据特征级融合所得到的数据特征，进行一定的判别、分类，以及简单的逻辑运算，根据应用需求进行较高级的决策，属于高级融合（流程如图5所示）。多传感器融合在硬件层面并不难实现，重难点都在算法上。拥有很高的技术壁垒，因此算法将占据价值链的主要部分。

图5 决策层融合处理

基于传感器体系结构的方法融合来自各种传感器（如激光雷达、雷达和摄像头）的数据，以探索它们各自的特点，提高环境感知能力。Darms等介绍了无人驾驶汽车“Boss”采用的基于传感器融合的运动车辆检测与跟踪方法（卡内基梅隆大学的汽车在2007年DARPA城市挑战赛中获得第1名）。MOT子系统分为2层，传感器层从传感器数据中提取特征，这些特征可用于根据点模型或盒模型描述移动障碍物假设。传感器层还尝试将特征与来自融合层的当前预测假设相关联。无法与现有假设关联的功能用于生成新的建议。对与给定假设相关联的每个特征生成观察，封装更新假设状态估计所需的所有信息。融合层根据传感器层提供的建议和观测，为每个假设选择最佳跟踪模型，并使用卡尔曼滤波器估计（或更新）假设状态的估计。Cho等描述卡内基梅隆大学新的试验性自主车辆使用的新MOT子系统。以前的MOT子系统，由Darms等人提出。Mertz等使用可直接从二维激光雷达、从三维激光雷达投影到二维平面或从多个传感器（激光雷达、雷达和摄像头）融合获得的扫描线。扫描线被转换成世界坐标并被分割。为每个线段提取直线和角点特征。分段与现有障碍物相关联，并使用卡尔曼滤波器更新目标的运动学。Byun等合并由多个传感器（如雷达、二维激光雷达和三维激光雷达）生成的移动障碍物轨迹。将二维激光雷达数据投影到二维平面上，利用联合概率数据关联滤波器（JP⁃DAF）跟踪运动障碍物。三维激光雷达数据被投影到一幅图像上，并使用区域增长算法分割成运动障碍物。最后，利用迭代最近点（ICP）匹配或基于图像的数据关联来估计或更新轨迹的姿态。Xu等描述了卡内基梅隆大学的新型无人驾驶试验车对用于保持距离的移动障碍物的上下文感知跟踪。给定行为上下文，在道路网络中生成ROI。找到感兴趣区域内的候选目标并将其投影到道路坐标中。通过将来自不同传感器（激光雷达、雷达和摄像机）的所有候选目标关联起来，获得距离保持目标。薛等融合激光雷达和摄像机数据，提高行人检测的准确性。他们利用行人高度的先验知识来减少错误检测。他们根据针孔摄像机方程，结合摄像机和激光雷达的测量来估计行人的高度。

3.2.2 多传感器数据结合深度图的融合

多传感器数据深度图的融合是近几年兴起的基于深度学习的多传感器信息融合算法。主要是用于激光雷达和摄像头的数据融合，激光雷达深度传感器的数据比较稀疏，分辨率低，优点是数据可靠，而摄像头传感器获取的图像比较致密并分辨率高，缺点是获取的深度数据可靠性差，利用多传感器数据深度图融合将两者进行优势互补。

Deng和Czarnecki等提出一个多视图标记的目标检测器。检测器将RGB图像和激光雷达点云作为输入，并遵循2步目标检测框架。第1步，区域提议网络（RPN）在点云的鸟瞰视图（BEV）投影中生成3D提议。第2步，将3D提议边框投影到图像和BEV特征图，并将相应的图截取发送到检测头（Detector head），以进行分类和边界框回归。提供最终的分类、定位和定向结果。与其他多视图方法不同，裁剪的图像特征不直接馈送到检测头，而是被深度信息掩盖以过滤掉3D边框外的部分。图像和BEV特征的融合具有挑战性，因为它们来自不同的视角。这里引入了1种新检测头，不仅可以从融合层提供检测结果，还可以从每个传感器通道提供检测结果。因此，可以用不同视图标记的数据训练目标检测器，以避免特征提取器的退化。

来自田纳西大学诺克斯维尔分校的Nabati和Qi提出将摄像头采集的图像数据和雷达数据进行中间特征层的融合，以达到精确的3D目标检测。

（1）首先使用CenterNet算法，利用获得的摄像头数据预测目标的中心点，并回归得到目标的3D坐标、深度和旋转信息。

（2）然后利用了视锥方法，将雷达检测到的目标数据和上面检测到的目标中心点进行关联。

（3）将关联后的目标特征和雷达数据检测到的深度与速度信息组成的特征图并联，再进行3D目标深度、旋转、速度和属性的回归。该算法解决了高度信息不准确的问题，引入了雷达点云预处理步骤。

Zhong，Wu等提出的完整关联网络（CFCNet）是1种端到端的深度模型，用RGB信息做稀疏深度完整化。2D深度规范相关性分析（2D2CCA），作为网络约束条件，可确保RGB和深度的编码器捕获最相似语义信息。该网络将RGB特征转换到深度域，并且互补的RGB信息用于完整丢失的深度信息。完整的密集深度图被视为由两部分组成。一个是可观察并用作输入的稀疏深度，另一个是无法观察和恢复的深度。同样，相应深度图的整个RGB图像可以分解为2部分：

（1）稀疏RGB，在稀疏深度可观察位置保留相应的RGB值；

（2）互补RGB（Complementary RGB），即从整个RGB图像中减去稀疏RGB（Sparse RGB）的部分。

在训练期间，CFCNet会学习稀疏深度和稀疏RGB之间的关系，并用所学知识从互补RGB中恢复不可观察的深度。在此基础上，Luc Van Gool提出了一种新方法，可以精确地完整化RGB图像引导的稀疏激光雷达深度图。该文提出一种融合方法，由单目相机提供RGB指导，利用目标信息并纠正稀疏输入数据的错误，这样大大提高了准确性。此外，利用置信度掩码考虑来自每种模态深度预测的不确定性。