|
报告出品方:申万宏源 以下为报告原文节选 ------ 1. 智能驾驶:端到端的算法新范式 1.1 AI感知:机器人+驾驶+具身智能的智能化曾都卡在这里
1.2 AI感知:以毫末智行为例,中美简单对比
1.3 自动驾驶:大模型AI对感知和标注的改造 强化感知:空间-时序维度,多模态数据融合 · 在2021 TESLA AI DAY将引入Transformer进行大规模的无监督学习。2022年后国内公司跟进。 数据标注升级:大模型无标注自监督学习 · 先统一所有感知任务的backbone,再使用以无标注数据为主的数据,对大模型进行预训练,使大模型获得能够使用无标注数据训练的能力。这里同样使用了大模型并行计算的能力。
自动驾驶:大模型的BEV transformer重要 BEV的通俗理解:把不同视角的观察合成一个“天眼模式”整体图,了解全局 传统驾驶算法下,时序信息很难与已有3D目标检测融合 · 3D BEV优势:1)将不同视角在 BEV 下统一,方便后续规划控制模块任务;2)BEV 下的物体没有图像视角下的尺度(scale)和遮挡(occlusion)问题; · 时序信息:自动驾驶感知任务重要,但现阶段基于视觉的 3D 目标检测方法并没有很好的利用;n BEVformer:基于Transformer的自动驾驶BEV纯视觉感知 · BEVFormer的两大核心任务:mutil-camera(多视角相机) 和 bird- eye-view(鸟瞰图)BEV · BEVFormer利用了Transformer的特征提取能力以及Timestamp结构的时序特征的查询映射能力,在时间维度和空间维度对两个模态的特征信息进行聚合,增强整体感知系统的检测效果。
自动驾驶: BEV transformer BEV的通俗理解:把不同视角的观察合成一个“天眼模式”整体图,了解全局。 Pre-BEV特征提取(如果输入特征提取的是3D信息,得到3D BEV,压缩到2D BEV)。 · 体素稀疏、不规则、3D卷积计算量大,落地困难。
1.4 AI感知:NeRF(神经辐射场)-大模型和自动驾驶的交集 NeRF,即Neural Radiance Fields(神经辐射场)。其通俗理解:给予海量不同视角的二维图,合成同一场景不同视角下的图像。 · 还可以通俗理解为X-Y-Z到三维极坐标的转化,第三视角到第一视角的转化。 辐射场: · 如果我们从一个角度向一个静态空间发射一条射线,我们可以查询到这条射线在空间中每个点 (x,y,z) 的密度 ρ ,以及该位置在射线角度 (θ, φ) 下呈现出来的颜色 c ( c=(R,G,B) )。 训练: · 用Tensor输入5D数据(三个位置,两个角度); · 得到颜色和密度; · 端到端训练,把原图和训练结果的损失做梯度回传。 体渲染:
AI感知+预测:Occupancy Network占用网络 Occupancy Network的通俗理解:两维的鸟瞰BEV,变为三维的鸟瞰。而增加运动序列预测。 2022CVPR放大的占用网络 · 2022 CVPR中,Tesla FSD新负责人 Ashok Elluswamy 推出了Occupancy Network。借鉴了机器人领域常用的思想,基于occupancy grid mapping,是一种简单形式的在线3D重建。 对BEV鸟瞰图的加强和改进 · 首先是纯视觉+AI+大模型路线,国内更可能用传感器路线; · BEV感知:高水平视觉为主的自动驾驶方案的起点; · 占用网络Occupancy Network:纯视觉自动驾驶技术的里程碑(CVPR 2022)。 优势有哪些?泛化,2D变3D,像素变体素 · 2D BEV栅格变成3D栅格,高度方向又增加了一个维度变成了3D栅格; · 借鉴了NeRF(输出3D栅格特征和栅格流,增加语义输出和速度信息,可以变分辨率聚焦); · 体现了泛化,可以识别之前未知物。 1.5 从AI感知,到端到端(感知+预测+规划+控制):CVPR2023 1)在Backbone环节特征提取,其中涉及BEV和多模态等大模型技术。 · 目标检测与跟踪模块可以实现对动态元素的特征提取、帧间物体跟踪。 · MapFormer 将map queries作为道路元素(例如,车道和分隔线)的语义抽象(semantic abstractions),并对地图进行全景分割。
AI端到端:CVPR2023的启发 3)预测模块,实现动静态元素交互与长时序轨迹预测,而且已经有“联合训练AI”。
2. 视觉泛化:大模型带来何种改变 2.1 大模型能带来视觉底层能力怎样的迭代? 大模型+自动驾驶,实际并未使用到视觉泛化能力 · 3D占据栅格网络:主要预测了空间中点被占据的概率,并未识别出三维物体是什么; · 大模型主要改变了自动驾驶工作范式。 · 小模型时代,特征提取+梯度下降训练; · 在特定领域已经非常成熟,如:人脸识别; · 但是,区分物体是什么有难度,泛化能力欠缺。 · 更高的准确性:视觉大模型一般具有千万级别或更多参数,相比小型模型具有更强大的表示能力,因此可以更好地捕捉图像中的细节和特征,从而提高模型的准确性。 2.2 AI感知的“泛化”理解:VIT将Transformer引入CV任务 在CV领域,为何基于传统CNN+大参数的思路遇到瓶颈? · 从结构层面看,传统 CNNs 结构缺乏先进组件。 · 2021年后,随着vit、Swin transformer、MAE等论文推出,transformer在CV和跨模态等应用增加。
2.3 AI感知的“泛化”理解:META SAM 提出Segment Anything (SAM)项目 · 用一个基础大模型,可以实现Zero-shot下的通用分割能力,基本涵盖了分割的各个子领域。即,CV中某个重要领域的通用模型出现了。
2.4 AI感知的“泛化”理解:META dinoV2 Dino V2的三个重要功能
· 数据集:1.42亿,没有文字标签,但是图片特征相似模型参数量是 10 亿级,也仍然是视觉Transformer 架构(ViT),但与 DINO 不太一样的是,这次 DINOv2 在数据集上经过了精心挑选。
|
|
|