端到端新突破 | 直接预测3D车道线，感知与规控无缝对接！

InfoRich 2024-04-04 发布于江苏

展开全文

本文只做学术分享，如有侵权，联系删文

论文标题：

CurveFormer++: 3D Lane Detection by Curve Propagation with Temporal Curve Queries and Attention

论文作者：

Yifeng Bai, Zhirong Chen, Pengpeng Liang and Erkang Cheng

导读：
本文提出了一种名为CurveFormer++的单阶段3D车道检测方法，它基于Transformer架构，利用曲线传播和注意力机制，直接从透视图像中提取特征并推断出3D车道信息。本办法直接预测3D车道曲线参数，预测结果可以直接用到下游的规划和控制任务中。©️【深蓝AI】编译

车道检测是自动驾驶感知系统的重要组成部分，它能够为自动驾驶汽车提供准确的车道信息。传统的车道检测方法主要在图像空间中进行，但这样得到的车道结果并不适合下游的规划和控制任务——因为它们需要以3D空间中的曲线参数的形式表示车道。为此，传统方法还需要一个后处理步骤，将图像空间中的2D车道结果映射到车辆坐标系中。这个后处理步骤不仅复杂耗时，而且会降低车道检测的准确性，使得传统方法在实际感知系统中的应用受到限制。

▲图1｜不同三维车道检测流程的比较。(a)图像预测和后处理；(b)基于CNN的稠密BEV和预测；(c)基于Transformer的稠密BEV和预测；(d)本文提出的CurveFormer++，通过曲线查询与注意力直接预测3D车道参数©️【深蓝AI】编译

▲图2｜基于Transformer的三维车道时间信息融合方法比较(a) 时序密集BEV地图融合；(b) 时序稀疏曲线查询和锚点融合©️【深蓝AI】编译

为了克服上述问题，本文提出了一种新颖的单阶段车道检测方法，名为CurveFormer++。该方法基于Transformer的架构，利用曲线传播和注意力机制，直接从透视图像特征中预测出3D空间中的车道曲线参数。与传统方法相比，本文的方法无需进行图像特征视图转换，能够更精确地捕捉车道的垂直变化，并且能够通过时间融合的方式，利用历史帧的信息，进一步提升3D车道检测的性能。

CurveFormer++是一种基于Transformer的3D车道检测算法，它利用选择性时间曲线查询和历史锚点来整合图像序列的时间信息，采用曲线交叉注意力模块计算查询与图像的相似性，并采用动态锚点范围迭代方法进行准确特征提取。

CurveFormer++由两个主要组件组成：共享的CNN骨干网络和曲线变换解码器。共享的CNN骨干网络将单个前视图图像作为输入，并输出多尺度特征图。曲线变换解码器通过曲线交叉注意力和迭代地优化锚点集合，从而传播曲线查询。最后，应用预测头输出3D车道参数。

■2.1 共享的CNN骨干网络

骨干网络将输入图像转换为多尺度特征图。在训练阶段，作者添加了一个辅助分割分支来增强共享的CNN骨干网络。

▲图3｜CurveFormer++单帧3D车道检测流程图(左)和CurveFormer++-T中的时序传播融合块(右)©️【深蓝AI】编译

▲图4｜动态锚点集表示曲线查询示意图(a)以及图像视图中的迭代曲线传播示意图；(b)每个动态锚点集最初遵循标准正态分布©️【深蓝AI】编译

■2.2 基于动态锚点的稀疏曲线查询

作者将查询表示为锚框，并使用4D坐标（x，y，w，h）表示。这种表示方法使得交叉注意力模块能够充分利用每个锚框的位置和大小信息。作者借鉴了DAB-DETR的思路，将其应用于基于Transformer的3D车道检测，并使用动态锚点集合。通过将曲线查询表示为有序的锚点集合，从而实现在Transformer解码器中迭代地优化曲线查询。每个Transformer解码器层都能通过一个共享参数的线性层来估计相对位置，从而实现曲线查询的逐层优化。

▲图5｜上下文采样模块的示意图。(a) Deformable DETR通过位置嵌入和查询分别预测参考点和采样偏移；(b) 本文的上下文采样模块通过利用查询和图像特征来学习采样偏移©️【深蓝AI】编译

■2.3 曲线变换解码器

曲线变换解码器由三个主要模块组成：多头自注意力模块、上下文采样模块和曲线交叉注意力模块。

本文在自注意力模块中使用了可变形注意力，它只关注参考点周围的一组关键采样点，而不受特征图的空间尺寸的影响。上下文采样模块通过结合更多的相邻图像特征来预测采样偏移量。曲线交叉注意力模块将历史帧的信息传递给当前帧的初始曲线查询。

■2.4 传播融合模块

CurveFormer++设计了一个简单的时间融合模块，将历史帧的信息传播到下一帧。作者比较了四种不同的时间传播融合模块，以证明融合历史信息对检测性能的提升作用。这些模块利用历史锚点集合、历史曲线查询或历史Top-K曲线查询来传播历史信息，并通过时间自注意力来融合当前帧的初始曲线查询。

▲图6｜四种时序融合模块的详细信息。(a) 利用历史锚点集；(b) 利用历史曲线查询；(c) 利用历史Top-K曲线查询；(d) 利用历史Top-K曲线查询和锚点集©️【深蓝AI】编译

CurveFormer++在多个公开数据集上展示了优异的性能，超越了其他基于CNN和Transformer的方法。CurveFormer++-T在ONCE-3DLanes数据集上表现出色，比单帧设置的CurveFormer++更高的F-Score和Recall分数。CurveFormer++的性能在OpenLane数据集上也取得显著提高，比原始版本和Persformer都表现更好。

CurveFormer++-T在x和z误差上表现更精确，显示出时间信息的融合可以提高近区域检测结果的准确性。

▲表1｜ONCE-3DLanes和OpenLane数据集上的综合3D车道评估。最佳结果以粗体显示，第二佳结果用下划线表示©️【深蓝AI】编译

▲表2｜ONCE-3DLanes数据集与其他最新3D车道方法的综合评估。最佳结果以粗体显示，第二佳结果用下划线表示©️【深蓝AI】编译

▲表3｜在OpenLane基准测试中不同场景集上的性能比较与其他最新3D车道方法。最佳结果以粗体显示，第二佳结果用下划线表示，第三佳结果用斜体表示©️【深蓝AI】编译

▲表4｜OpenLane数据集上的综合3D车道评估©️【深蓝AI】编译

▲图7｜PersFormer、CurveFormer++和CurveFormer++-T的稳定性评估结果©️【深蓝AI】编译

▲表5｜锚点数量和范围处模块的消融（ANCPTS：锚点;RR：范围限制）©️【深蓝AI】编译

▲表6｜批处理大小和图像分辨率设置的消融（40个锚点与范围限制）©️【深蓝AI】编译

▲表7｜时序传播模块的消融©️【深蓝AI】编译

▲表8｜时序架构参数的消融（720x960图像分辨率）©️【深蓝AI】编译

本文提出CurveFormer++，一种基于Transformer的3D车道检测方法。它利用动态锚点集逐层优化查询，并采用曲线交叉注意力模块和上下文采样模块提取更相关的图像特征。作者还设计了锚点范围限制方法，增强了模型在表示不同长度车道时的鲁棒性。此外，作者还创新地使用稀疏曲线查询和动态锚点集对历史结果进行时序融合。实验结果表明，与现有的方法相比，CurveFormer++算法具有优异的性能。