引言Domain Adaptive Object Detection, 具体做法分三步:
Mean Teacher ction>将知识蒸馏框架与 < font=""><>i>通过对公共基准和自制的打哈欠行为数据集进行的广泛实验证明,SSDA-YOLO 在实际跨域目标检测应用中的有效性和优越性,同时也揭示了采用先进检测器推进 DAOD 这个领域的必要性。 首先,基于知识蒸馏结构,我们分别学习作为学生网络的 YOLOv5 和基于教师网络的 Mean Teacher 模型,以构建稳健的训练。其次,通过执行风格转移以交叉生成伪标签训练图像以减轻全局域差异。最后,应用一致性损失函数来校正来自不同域但具有相同标签的图像的预测偏移。 本文提出了一种名为 总结这张图更有意思,是作者自己采集的真实场景下的图片,可以看到,尽管与 Oracle 结果相比仍然存在差距,但本文所提出的方法可以明显缓解真实课堂中跨域行为检测的准确性下降。消融实验部分这里不讲啦,明天还要上班有点累了,感兴趣的小伙伴自己去看看吧,今天先讲到这里。 从定性结果来看,尽管本文方法在 Rel 场景下表现不比 PT 和 TDD 好,不过大体还是优于同年提出的方法如 TIA、MGADA 和 SIGMA,大概率是得益于所提出的自适应策略的有效性以及 YOLOv5 出色的性能。 上面除了 [17,16,19] 是基于 FCOS 实现的,其他都是基于 Faster R-CNN。上述表格报告了 DAOD 在 Foggy Cityscapes 验证集上的所有结果。可以看出,由于 YOLOv5 的数据增强策略,Source Only 方法实现了与最近最先进的方法如 EPMDA 相当的 mAP 值达到了35.9。通过添加蒸馏损失和一致性损失,本文方法在 BaseDC 更是达到了 55.9 的 mAP,远高于迄今为止 TDD 中的最佳结果 49.2。 Powered by RangeKing@GitHub 如上述表格所示,本文选取了 11 种具有代表性的方法进行比较,有意思的是这些方法全是基于 Faster R-CNN。从实验结果看出,本文提出的域自适应模块效能好像不是很哇塞,不过 YOLOv5 的推理效率各方面还是挺不错的,对落地比较友好,貌似 YOLOv8 也快发版了哦,目前相关的资料都被曝光了,大家也可以尝试自行替换下。 实验看起来有点复杂,但其实大家把它拆成几部分单独理解也是蛮简单的,建议对照下代码去看。 此外,在推理阶段,我们只需要采用经过精细训练的学生模型,并将目标图像作为单一输入。我们的模型可以通过联合优化所有相关损失来以端到端的方式进行训练,最终整体的损失函数如下所示: 当然,这里我们也可以使用 L1 损失来替代,至于哪个损失更好,详见消融实验部分。一致性损失理论上是可以用于纠正客观性和分类的跨域偏差,作者后续也通过实验来证明其有效性。笔者早期也对常用的损失函数进行了全面性的总结,大家有时间的也可以捧个场: 作者最终是采用第二种方式,即通过计算两个最终输出之间的 L2 距离来进行约束,公式可以表述如下: 中间监督策略是由卷积姿态机 CPM 提出的,起初是用于单人姿态估计任务。其实这种方法跟深监督机制的思想是类似的,所以我们如果拿来应用在监督训练中解决梯度消失问题也是挺合理的嘛,你说是不是这个道理老铁?但问题是此处我们不希望模型输出相似的中间特征,而是期望其预测输出尽可能一致。因此,这种方案我们还是 pass 掉吧。
尽管输入学生模型的源类和目标类配对图像 () 具有不同的场景级数据分布,但它们本质上属于相同的标签空间。理想情况下,一个合理的假设是,输入两个域图像的学生模型的输出应该是一致的。因此,为了保证它们的输出尽可能接近,我们可以在相应的两个分支上添加一个新的约束。直观上,我们有三种选择方案: Consistency Loss Function上述关系是通过 MT 模型中的 EMA 参数更新建立的。如此一来,学到的教师模型将不会显着倾向于只擅长预测目标域中的对象。此外,学生模型的训练将逐渐接近真实的目标领域,而由于伪标签本身的监督较弱,来自 的过滤预测虽然不是那么准确,但这些伪标签在促进细粒度实例级适应方面发挥着不可替代的作用。 对于教师模型,为了使其学到源域的全局图像级特征,这里将原始输入目标图像 替换为类源假图像 (参见上述框架图中的蓝色图案)。而用于训练学生模型的未标记目标图像 则保持不变(参见上述框架图中的绿色图案)。因此,我们可以将原始的蒸馏损失更新为以下形式: 在生成 和 之后,为了弥补学生模型的跨域差异,此处添加了一个新的监督分支,以类目标图像 作为输入(参见上述框架图中左边输入部分的黄色图案),并按照与源图像 完全相同的方式训练它们。对应的损失函数定义如下: Remedying Cross-Domain Discrepancy本文受 SWDA 的方法启发(上面介绍了),同样基于 CycleGAN 在全局场景级别通过弱对齐来学习域不变特征。在本文中,作者选择生成类目标伪造源图像和类源伪造目标图像来进行训练。如上图所示,这里采用更高级的未配对图像转换器 CUT 以实现更快、更稳健的场景传输,是不是整体看起来有点诡异的诙谐感~哈哈哈。 通过第一步我们成功的构建了一个最基础的蒸馏网络,不过遗憾的是,此处学生模型的权重更新主要由源域中的图像主导。相比之下,教师模型则不会接触到源图像并由目标域特征进行引导。所以我们要如何缓解这种图像级别的域差异呢?毕竟这样一来会导致两个模型偏向于过拟合单一的伪标签了。 Pseudo Training Images Generation其中 和 分别是来自教师模型中边框回归和类别预测分支;而 和 则是对应的滤波器。具体来说,本文是在训练的每个 step 中将 MT 模型设置为 eval 模式,并使用阈值为 的 当将 MT 模型应用于本文的跨域目标检测任务时,可以将未标记的目标域样本 设置为教师模型的单一输入。此外,作者还在这些未标记的样本 上部分训练学生模型。在蒸馏过程中,通过从教师模型预测中选择具有高概率的边界框作为伪标签,学生模型倾向于减少目标域上的方差并增强模型的鲁棒性。假设我们有来自相同图像 的教师模型的增强目标输入 和学生模型的 ,则可以使用如下定义的蒸馏损失来惩罚两个模型之间预测的不一致性: 其中 是指数衰减,其理论值接近 1.0,通常设置在 9 的倍数范围内,即 0.99 和 0.999 等。 具体来说,假设学生和教师模型的权重参数分别记为 和 ,那么我们便可以在每个训练批次步骤更新 ,具体公式如下:
Mean Teacher Model下面详细描述下这四个部分。
而
上图为 受上述方法的启发,本文提出了一种新颖的半监督域自适应 方法除此之外,最近新提出的
MTOR
DTPL
SIGMA
USDAF
MSDA
UMT
MEAA
NLDA
SCL
SWDA
DA-Faster
域自适应学习(Domain Adaptation Learning)能够有效地解决训练样本和测试样本概率分布不一致的学习问题,是当前机器学习的热点研究领域,在计算机视觉、自然语言处理,文本分析,生物信息学,跨语言分析,视频分析,情感分析和手写体识别等领域均有广泛应用。这块内容平常比较少讲,今天先简单的介绍下跨域目标检测和半监督域自适应两部分,后期有时间的话可以专门出一篇文章详细介绍 域自适应当然,也可以大致分为
DETR 、Relation Net ction>基于 VIsion Transformer 的目标检测器如 < font=""><>i><>等;Faster-RCNN 、Fast-RCNN 、RCNN ction>基于双阶段的目标检测器如 < font=""><>i><>等;Retinanet 、SSD 、YOLO v2-v8 ction>基于单阶段的目标检测器如 < font=""><>i>目标检测算法大致可以分为三种: 目标检测背景通过最终的实验表明,本文方法在包括 |
|
来自: mynotebook > 《待分类》