【原】基于稀疏语义视觉特征的道路场景的建图与定位

点云PCL 2022-03-08

展开全文

文章：Road Mapping and Localization using Sparse Semantic Visual Features

作者：Wentao Cheng, Sheng Yang, Maomin Zhou, Ziyuan Liu, Yiming Chen, Mingyang Li

编译：点云PCL

来源: arXiv 2021

欢迎各位加入免费知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。未经博主同意请勿擅自转载。

公众号致力于分享点云处理，SLAM，三维视觉，高精地图相关的文章与技术，欢迎各位加入我们，一起每交流一起进步,有兴趣的可联系微信：920177957。本文来自点云PCL博主的分享，未经作者允许请勿转载，欢迎各位同学积极分享和交流。

摘要

本文通过提取、建模和优化语义道路要素，提出了一种新的自动驾驶车辆视觉建图和定位方法，具体来说，该方法集成了级联深度模型来检测标准化的道路元素，而不是传统的点特征，以寻求更高的位姿精度和稠密地图的表示方法，为了利用这些结构特征，文章通过具有代表性的骨架和边界关键点对路灯和标志进行建模，并通过分段三次样条曲线对车道进行参数化，基于道路语义特征构建了一个完整的建图和定位方案，包括a, 图像处理前端，b,传感器融合策略，以及c,后端优化。在公共数据集和我们的测试平台上的实验证明了该方法的有效性和效率均优于传统方法。

主要贡献

在自动驾驶应用中，我们注意到普通道路由稠密的元素组成：标准化交通标志（悬挂或喷涂在地面上）、车道、灯杆等。因此，为了实现稳定、低成本的自动驾驶系统，我们建议检测和参数化道路元素，并设计一种新的语义建图和定位方法。这项工作的关键贡献，其中包括：

一个卷积神经网络（CNN）支持的图像处理前端
用于提取语义特征参数化道路要素和设计损失函数的方法
语义优化模块，可用于离线建图和在线定位。

我们注意到，有一些方法在概念上与我们的方法类似，通过分割道路图像并在稳定区域中选择特征点。然而，稳定语义区域中的点特征可能不一定是稳定和稠密的，并且不使用高级别信息，例如曲线。相比之下，我们的方法利用了多源语义信息，提供了更稠密的表示，实现了更好的“持久性”和“稠密性”

主要内容

A.系统概述

图1：提出的语义建图和定位方法概述，蓝色箭头连接mapping阶段中以离线构建稠密地图，绿色箭头表示在线定位阶段的数据流

B.道路特征的选择

考虑到地图稀疏性和查询有效性，以下城市道路上的标准化目标对象是适合作为语义地标进行检测：1）道路旁灯杆顶部的灯具和交通标志稳定且高度足够高，可由前置摄像头捕捉。2）虽然有时会被车辆遮挡，但地面面积占据了每张图像的近一半，使得地面上的高对比度标志不可忽视。3）与地面标志类似，也经常观察到涂有实线和虚线的车道。实心车道提供单向运动约束，虚线车道的拐角可以被视为索引点地标。在这项工作中，我们选择上述语义类型作为目标对象，如图2所示的道路要素构建本文的语义地图。

图2：在我们的地图中定义和使用的语义对象及其结构，以及检测到的实例示例。橙色：索引深点。绿色：等高线采样点。

C.道路特征检测

本文两级级联检测模块首先执行实例级检测，将实例作为盒子（即极点和地面）对象上的索引代表像素和车道轮廓上的样本像素。然后，沿着这些检测到的车道评估64×64图像块，以级联检测索引的虚线车道角，为了减少重复区域（如特征提取）上的重复计算，我们参考CenterNet，该方法将底层特征提取过程与顶层头部分离，以使这些头部能够适应不同的任务。

D.语义实体的特征跟踪

给定两个连续检测的帧，跟踪模块首先通过整合IMU测量值来累积它们的相对变换T0，然后使用匈牙利匹配策略在像素空间中以实例和像素方式关联地面特征。

对于在垂直物体（如极点）中检测到的关键点，使用光流方法在帧间进行跟踪。在特征跟踪过程中，通过GFTT提取器和FREAK描述子对典型的关键点进行提取、描述和跟踪，因为它们不仅是视觉惯性里程计的一部分，而且是值得包含在结构化对象中的稳定跟踪点特征。

E.道路车道的表示和初始化

这里使用分段三次Catmull Rom样条曲线通过一系列控制点来表示每个3D车道的左右轮廓。

F.状态估计器设计

为了清晰起见，我们在表中总结了我们的方法中使用的索引注释，为了将这些语义实体添加到紧密耦合的视觉惯性里程计中，我们在系统中引入了五种新型的可优化变量，总结如下

图3为提出的因子图结构示意图，隐藏了视觉惯性里程计系统的基本图形元素

G.回环检测和特征融合

文章执行3D-3D关联以重新识别语义对象，而不是一个框架式的单词袋查询原因是，在建图期间，重复访问对象的密度相对比GNSS-VIO里程计的定位不确定性要小，而这些标准化道路元素之间的视觉外观过于相似，难以区分。在基于实例的对象和车道关联过程中，我们将质心之间距离小于5.0米的三角形对象视为相同，然后，在匈牙利策略中，将对其包含的深层点和经典点的观察结果进行级联合并：深层点的语义类型用于拒绝不匹配。而对于每个伴随的GFTT点，我们在多个帧中使用它们的FREAK描述子进行投票。

F.基于语义建图的定位

图4：在线定位的状态机

我们使用图4所示的状态机来评估在线定位的姿势质量，并相应地执行不同的策略，从地图未初始化状态开始，即地图坐标到当前全球坐标TM的全局转换未知，我们使用粗略的GPS测量来检索相应的地图分区。

实验

A.数据集

我们使用两个真实世界的数据集来评估我们的性能，包括一个公开可用的数据集KAIST，和一个自记录的数据集。对于KAIST序列，在城市道路序列使用带有IMU和GNSS测量值的左摄像头。

B.感知模型的训练和表现

手动标注了从这四个KAIST序列中提取的3207幅图像（占所有图像的4.4%），这些标注包括图2中所示的2D对象框、车道轮廓和实例关键点，我们将标记图像随机分为训练集和测试集，训练集和测试集的比例分别为85%和15%，并通过缩放和颜色增强对它们进行增强，生成512×512个模型输入。我们使用Adam优化器，分别在不同任务中训练模型。