分享

全部开源!CVPR'25端到端自动驾驶佳文汇总赏析

 InfoRich 2025-06-08 发布于上海

Click on the card below to follow US

Image

>>>戳我一下,加入智驾机器人学习交流群✨


BridgeAD:基于历史预测与规划的端到端自动驾驶

论文信息

  • 标题:Bridging Past and Future: End-to-End Autonomous Driving with Historical Prediction and Planning
  • 作者:Bozhou Zhang, Nan Song, Xin Jin, Li Zhang*
  • 单位:复旦大学等
  • 项目地址:https://github.com/fudan-zvg/BridgeAD

摘要

端到端自动驾驶将各项任务统一在可微分框架中,实现以规划为导向的优化,正受到越来越多关注。现有方法通过密集的历史鸟瞰图(BEV)特征或查询稀疏记忆库来聚合历史信息,延续了检测任务的范式。我们认为这些范式要么在运动规划中遗漏历史信息,要么未能契合其多步特性——需要预测或规划多个未来时间步。基于'未来是过去的延续'理念,我们提出BridgeAD框架,将运动与规划查询重构为多步查询以区分各未来时间步。该设计通过将历史预测与规划应用于端到端系统的相应时间步,有效提升了感知与运动规划性能:当前帧的历史查询与感知模块结合,未来帧的查询则融入运动规划模块。由此我们在每个时间步聚合历史洞见,弥合过去与未来的鸿沟,增强端到端自动驾驶流程的整体连贯性与准确性。在nuScenes数据集的开环与闭环实验中,BridgeAD均实现了最先进性能。

算法概述

BridgeAD框架如下图所示,包含三大组件:图像编码器、历史增强感知模块和历史增强运动规划模块。图像编码器首先从多视角图像提取多尺度空间特征。历史增强感知模块采用稀疏化方法进行3D物体检测、跟踪和在线矢量化建图,通过(b)历史运动到检测融合模块整合历史信息,再经智能体间与智能体-地图注意力处理。历史增强运动规划模块由(c)历史增强运动预测、(d)历史增强规划和(e)步骤级运动到规划交互模块组成,利用历史数据生成运动预测与规划输出。记忆队列(a)缓存历史运动与规划查询,为上述模块提供相关历史信息。

Image
BridgeAD框架概览:多视角图像先经图像编码器处理,继而感知3D目标与矢量化地图。(a)内存队列缓存K帧历史运动与规划查询;(b)提出的历史运动至检测融合模块利用当前帧历史运动查询增强检测与追踪能力;在运动规划组件中,(c)历史增强运动预测模块与(d)历史增强规划模块将多步历史运动及规划查询聚合为未来帧查询;最终(e)步级运动至规划交互模块促进多步运动查询与对应未来时间步规划查询的交互。

部分实验结果

Image
nuScenes验证集上的开环规划结果。
Image
nuScenes数据集上采用NeuroNCAP基准的闭环仿真结果。
Image
前沿运动预测方法结果对比。
Image
先进感知或端到端方法的感知结果对比。
Image
闭环评估的定性结果表明,我们的BridgeAD在安全关键场景中能有效避免碰撞。

总结

本文提出BridgeAD框架,该端到端系统通过整合感知、预测与规划各阶段的历史信息来增强自动驾驶性能。我们将运动与规划查询表征为多步查询,实现步骤特异性交互并利用时序信息提升未来时间步的连贯性。在nuScenes数据集上进行的大量开环与闭环实验表明,BridgeAD实现了卓越性能。研究结果凸显了融合历史认知以衔接过去与未来的潜力,推动了自动驾驶技术进步。

DiffusionDrive:面向端到端自动驾驶的截断扩散模型

论文信息

  • 标题:DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
  • 作者:B Liao, S Chen, H Yin, B Jiang, C Wang, S Yan, X Zhang, X Li, Y Zhang, Q Zhang, X Wang*
  • 单位:华中科技大学,地平线机器人
  • 项目地址:https://github.com/hustvl/DiffusionDrive

摘要

扩散模型作为机器人策略学习的强大生成技术,能够建模多模态动作分布。利用其能力实现端到端自动驾驶是一个前景广阔的方向。然而,机器人扩散策略中大量的去噪步骤与交通场景更具动态性、开放性的特点,对实时生成多样化驾驶动作提出了重大挑战。为此,我们提出一种新型截断扩散策略,通过引入先验多模态锚点并截断扩散调度,使模型能够学习从锚定高斯分布到多模态驾驶动作分布的去噪过程。此外,我们设计了高效的级联扩散解码器以增强与条件场景上下文的交互。所提模型DiffusionDrive相比原始扩散策略实现了10×去噪步骤的缩减,仅需2步即可生成更优质的多样化结果。在面向规划的NAVSIM数据集上,基于对齐的ResNet-34骨干网络,DiffusionDrive以88.1 PDMS的指标刷新记录(未使用任何技巧),同时在NVIDIA 4090上达到45 FPS的实时速度。复杂场景下的定性结果进一步证实,DiffusionDrive能稳健生成多样化的合理驾驶动作。

算法概述

与基础扩散策略从场景上下文条件化的随机高斯噪声采样动作不同,人类驾驶员遵循既定驾驶模式,并根据实时路况动态调整。这一洞见促使我们将先验驾驶模式嵌入扩散策略——通过将高斯分布划分为多个以先验锚点为中心的亚高斯分布(称为锚定高斯分布)。得益于扩散模型的多模态表达能力,所提出的截断扩散策略无需像VADv2那样依赖大量固定锚点,即可有效覆盖潜在动作空间。通过从锚定高斯分布获取更合理的初始噪声样本,我们将去噪步骤从20次缩减至2次,大幅提速以满足自动驾驶实时需求。

为增强与条件化场景上下文的交互,我们提出基于Transformer的高效扩散解码器,不仅通过稀疏可变形注意力机制与感知模块的结构化查询交互,还与鸟瞰图(BEV)及透视图(PV)特征交互。此外,我们在每个去噪步骤引入级联机制,迭代优化扩散解码器内的轨迹重建。

基于这些创新,我们提出实时端到端自动驾驶扩散模型DiffusionDrive。在面向规划的NAVSIM数据集上,我们通过非反应式仿真与闭环评估进行基准测试。仅使用对齐的ResNet-34骨干网络,DiffusionDrive在NAVSIM导航测试集上取得88.1 PDMS,显著超越现有最佳方法。相较采用8192条锚点轨迹并融合后处理与额外监督的NAVSIM冠军方案Hydra-MDP-V8192-W-EP,DiffusionDrive通过直接学习人类驾驶示范且无需后处理,仍以1.6 PDMS优势胜出,同时在NVIDIA 4090上保持45 FPS实时速度。在nuScenes数据集的开环评估中,DiffusionDrive运行速度1.8×快于VAD,在相同ResNet-50骨干下实现20.8%更低的L2误差与63.6%更低的碰撞率,展现顶尖规划性能。

Image
DiffusionDrive整体架构。(a)该系统可集成多种现有感知模块与传感器输入。(b)设计的扩散解码器以锚定高斯分布采样的噪声轨迹为输入,通过级联式增强与条件场景上下文的交互,逐步去噪生成最终预测结果。

部分实验结果

Image
基于闭环指标的NAVSIM导航测试集规划性能对比。
Image
NAVSIM导航测试集上从Transfuser到DiffusionDrive的技术路线。
Image
设计方案消融实验。
Image
nuScenes数据集开环指标对比。

总结

本文提出新型生成式驾驶决策模型DiffusionDrive,通过结合截断扩散策略与高效级联扩散解码器实现端到端自动驾驶。该模型能从锚定高斯分布中对可变数量样本去噪,实时生成多样化规划轨迹。全面实验与定性对比验证了DiffusionDrive在规划质量、运行效率和模态多样性方面的优越性。

MomAD:端到端自动驾驶中的动量感知规划

论文信息

  • 标题:Don’t Shake the Wheel: Momentum-Aware Planning in End-to-End Autonomous Driving
  • 作者:Z Song, C Jia*, L Liu, H Pan, Y Zhang, J Wang, X Zhang, S Xu, L Yang, Y Luo *
  • 单位:北京交通大学,地平线机器人等
  • 项目地址:https://github.com/adept-thu/MomAD

摘要

端到端自动驾驶框架实现了感知与规划的无缝集成,但通常依赖单次轨迹预测,这可能导致控制不稳定且易受单帧感知遮挡的影响。为此,我们提出动量感知驾驶(MomAD)框架,通过引入轨迹动量和感知动量来稳定并优化轨迹预测。MomAD包含两个核心组件:(1)拓扑轨迹匹配(TTM)采用豪斯多夫距离选择与历史路径保持连贯性的最优规划查询;(2)动量规划交互器(MPI)通过交叉注意力机制将选定规划查询与历史查询关联,扩展静态与动态感知特征。这种增强的查询有助于重新生成长时程轨迹并降低碰撞风险。为减轻动态环境和检测误差带来的噪声,我们在训练中引入鲁棒的实例去噪技术,使规划模型能聚焦关键信号并提升鲁棒性。我们还提出新颖的轨迹预测一致性(TPC)指标来量化评估规划稳定性。在nuScenes数据集上的实验表明,MomAD相比SOTA方法实现了更优的长期一致性(≥3s)。在精选的Turning-nuScenes上评估显示,MomAD在6秒预测范围内将碰撞率降低26%,TPC提升0.97米(33.45%),而在Bench2Drive闭环测试中成功率最高提升16.3%。

算法概述

下图展示了MomAD系统架构,集成稀疏感知与动量感知规划。为捕捉与主车交互的关键动态/静态实例,稀疏感知模块基于SparseDrive编码多视角图像特征,在时间步t聚合成道路参与者和地图元素的实例特征Ftins 。这些特征通过锚框与折线关键点采样获得,输入检测/跟踪和在线建图模块进行精准预测。MomAD核心是联合运动与动量感知规划模块,包含:(1)拓扑轨迹匹配,显式选择多模态轨迹中最匹配历史路径的候选轨迹以确保时序连贯性;(2)动量规划交互,通过在长程查询混合器中交叉关注候选轨迹规划查询与前一时刻查询,扩展感知视野。该方法提供更全面的环境认知与其他参与者意图。优化后的查询经规划头处理生成更新后的多模态轨迹。由于规划模块高度依赖检测与地图实例特征,训练时我们在稀疏感知组件中引入抗扰去噪模块,通过降低对噪声特征的敏感性来增强轨迹预测与规划的稳定性。

Image
MomAD整体架构。作为多模态轨迹端到端自动驾驶方法,MomAD首先将多视角图像编码为特征图,通过抗扰模块学习稀疏场景表示,最后通过拓扑轨迹匹配(TTM)模块与动量规划交互器(MPI)模块完成规划任务。本方法解决了动态驾驶条件下稳定性和鲁棒性的关键挑战。

部分实验结果

Image
nuScenes验证数据集上的规划结果。
Image
uScenes验证数据集上的感知与运动结果。
Image
MomAD与UniAD、VAD及SparseDrive在多帧场景下的可视化对比结果。相较于真实轨迹(GT)和TPC指标,所提出的MomAD方法在预测轨迹中均实现了时序一致性。

总结

所提MomAD框架解决了端到端自动驾驶系统规划稳定性与鲁棒性的关键挑战。通过轨迹动量与感知动量的协同,借助拓扑轨迹匹配(TTM)和动量规划交互器(MPI)稳定轨迹预测,确保时序连贯性并增强长时域上下文理解。在nuScenes及特制Turning-nuScenes验证集的评估表明,相较前沿方法,MomAD在降低碰撞率与提升轨迹一致性方面具有优势。虽然MomAD改善了长时域轨迹预测的时序一致性,但标准教师强制轨迹回归导致的模态坍塌仍存在改进空间。未来工作将探索扩散模型与推测解码技术,在保证效率的同时增强轨迹多样性。

GoalFlow:面向端到端自动驾驶多模态轨迹生成的目标驱动流匹配方法

论文信息

  • 标题:GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving
  • 作者:Z Xing*, X Zhang, Y Hu, B Jiang, T He, Q Zhang, X Long, W Yin†
  • 单位:中国科学院大学,地平线机器人等
  • 项目地址:https://github.com/YvanYin/GoalFlow

摘要

我们提出GoalFlow,一种用于生成高质量多模态轨迹的端到端自动驾驶方法。在自动驾驶场景中,很少存在唯一合适轨迹。近期方法日益关注多模态轨迹分布建模,但存在轨迹选择复杂度高、轨迹质量下降等问题,这源于高轨迹发散度以及引导信息与场景信息的不一致性。为解决这些问题,我们引入GoalFlow——通过有效约束生成过程来产生高质量多模态轨迹的创新方法。针对基于扩散方法固有的轨迹发散问题,GoalFlow通过引入目标点约束生成轨迹。该方法建立了基于场景信息从候选点选择最合适目标点的新型评分机制。此外,GoalFlow采用高效生成方法Flow Matching来产生多模态轨迹,并整合精细化评分机制从候选中选择最优轨迹。在Navsim上的实验验证表明,GoalFlow实现了最先进性能,为自动驾驶提供鲁棒的多模态轨迹,其PDMS指标达90.3,显著超越其他方法。相比其他基于扩散策略的方法,本方案仅需单次去噪步骤即可获得优异性能。

算法概述

GoalFlow是一种目标驱动的端到端自动驾驶方法,可生成高质量多模态轨迹。如下图所示,其架构包含三大组件:感知模块通过融合相机图像I与激光雷达数据L,生成封装环境信息的鸟瞰图特征 ;目标点构建模块专注于生成精确的轨迹引导信息,通过构建目标点词库并采用评分机制选择最佳目标点g;轨迹规划模块生成多模态轨迹集,最终通过轨迹评分机制确定最优轨迹τ。

Image
GoalFlow架构概览。该系统由三大模块构成:感知模块负责将场景信息整合为鸟瞰图(BEV)特征Fbev,目标点构建模块从目标点词库V中选取最优目标点作为引导信息,轨迹规划模块通过高斯分布到目标分布的去噪过程生成轨迹。最终轨迹评分器从候选轨迹中选出最优解。

部分实验结果

Image
Navsim测试集上PDM评分指标与SOTA方法的对比。
Image
各组件影响的消融研究。
Image
轨迹可视化

| 本文仅用于学术交流,如有侵权,请联系删文!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多