分享

开源了!WebUAV-3M:百万级别无人机目标跟踪新基准

 mynotebook 2022-08-13 发布于湖南


深圳市大数据研究院&上海交大等单位提出百万级别无人机物体跟踪新基准WebUAV-3M

无人机物体跟踪(UAV Tracking)技术具有广泛的应用场景,例如无人机配送、农业生产等领域。由于现有的无人机物体跟踪数据集主要关注于小尺度的跟踪问题,忽略了数据规模、数据模态、目标类别和场景多样性以及评测协议对跟踪算法的重要影响,极大地隐藏了深度无人机物体跟踪的潜力。为此,深圳市大数据研究院联合上海交通大学、云从科技、香港中文大学(深圳)、中科院、京东探索、悉尼大学构建了全球最大的多模态无人机物体跟踪数据集WebUAV-3M。该数据集包含三百多万帧通过半自动化标注工具密集标注的图像;全部4,500个视频划分为12个超类(superclasses),223个目标子类(target classes)和63个运动类(motion classes)。

为了发挥视觉、自然语言和音频的互补优势,我们同时提供了2D visual bounding boxes、natural language specifications和audio descriptions全模态的标注信息。我们期待以上全模态的标注信息能够促进未来在探索多模态无人机物体跟踪的语言特征和音频线索方面的研究。此外,我们还提出了一个细粒度的无人机跟踪-场景约束评测协议(UTUSC protocol),包括7个具有挑战性的场景(弱光照、长时遮挡、小目标、高速运动、目标失真、双动态干扰、对抗样本),以促进无人机物体跟踪社区研发、调试和评测各种类型的深度跟踪模型。基于提出的基准,我们全面地评测了43个具有代表性的跟踪算法,指出了深度无人机物体跟踪存在的挑战,并且展望了提出的数据集潜在的研究方向和应用场景。

       图片 WebUAV-3M: A Benchmark Unveiling the Power of Million-Scale
Deep UAV Tracking

论文链接:https:///abs/2201.07425

项目地址:

https://github.com/983632847/WebUAV-3M

一、概述

无人机物体跟踪是计算机视觉领域一个基本的但尚未完全解决的问题,由于其具有广泛的应用场景(例如交通监控、航拍、海上搜救、无人机配送、智慧农业)受到了研究人员越来越多的关注。但是,现有的无人机物体跟踪数据集存在以下不足,极大地限制了深度无人机物体跟踪算法的研究和评测:

(1)缺乏大规模的无人机物体跟踪数据集。现有的无人机物体跟踪数据集的视频数量很少有超过500个的,帧数通常只有几十万帧,因此难以在单个数据集上训练鲁棒的深度无人机物体跟踪器。一般的做法是在大规模的通用物体跟踪数据集上训练跟踪器,然后在无人机物体跟踪数据集上测试,但是由于无人机搭载的摄像头和地面相机的视角、分辨率、采样高度等存在巨大的差异,这不可避免地会降低无人机物体跟踪算法的性能。

       图片

图1:WebUAV-3M与主流无人机物体跟踪基准和通用物体跟踪基准的比较。每个圆圈的面积与相应基准的总帧数成正比。

(2)缺乏自然语言和音频标注。现有的研究表明,自然语言和音频在包括目标跟踪在内的各种视觉任务中能够发挥重要的作用。首先,自然语言/音频能够提供额外的辅助信息,作为一种高级语义指导,文本信息可以减轻边界框歧义和目标外观变化的影响。其次,用自然语言/音频初始化目标也是非常方便和有实际应用价值的(例如为盲人提供人机交互服务)。然而,据我们所知,现有的无人机物体跟踪数据集还没有开始探索自然语言/音频引导的无人机物体跟踪。

(3)目标类别有限。无人机物体跟踪是一项类别无关的任务,这意味着跟踪算法可以适用于各种目标类别,并且在可见和不可见的类别上都应该具有鲁棒性。但是,现有的无人机物体跟踪基准通常只有几个目标类别,这损害了跟踪器在大量不可见类别上的性能。

(4)缺乏严格的评测协议。理想情况下,一个强大的评测协议应该鼓励给定的跟踪系统在各种场景中均具有稳定的性能。但是,现有的无人机物体跟踪基准通常使用全局属性评测,这可能会产生不可靠的评测结果,并且无法区分不同跟踪器的优缺点。

为了解决以上问题,学术界提出了很多的数据集,但是没有一个数据集完全解决以上问题。为此,我们构建了一个大规模的统一的无人机物体跟踪基准WebUAV-3M,期待全面地解决上述问题。

表1:WebUAV-3M与主流通用物体跟踪基准和无人机物体跟踪基准的详细比较。

       图片        

针对上述问题,我们做了以下工作:

(1)我们构建了一个新的百万级基准WebUAV-3M,用于深度无人机物体跟踪,收集了4,500个视频序列并密集标注了大约330万个高质量的边界框。WebUAV-3M包含223个目标类别,提供比所有公开的无人机跟踪基准更广泛的现实世界中的运动目标类别。通过发布WebUAV-3M,我们旨在为无人机物体跟踪算法的统一训练和评测提供一个专用平台。

(2)我们提出了一个通用且可扩展的半自动化标注工具SATA,以实现准确的边界框标注并显著减少所需的人力成本。

(3)我们提出了一个无人机跟踪-场景约束评测协议UTUSC,以及7个细粒度和具有挑战性的场景子测试集,包括弱光照、长时遮挡、小目标、高速运动、目标失真、双动态干扰和对抗样本,这有助于评测用于现实世界的深度无人机物体跟踪算法。UTUSC 是一种更严格和细粒度的评测协议,与基于全局属性的评测方法相比,它能产生更可靠的评测质量。

(4)除了2D视觉边界框标注之外,我们还提供了自然语言和音频标注。对于每个视频序列,我们为整个视频标记一个英文句子,并将其转换为音频标注。

(5)基于新的基准,我们进行了百万级的深度无人机物体跟踪实验。我们评测了43 个具有代表性的跟踪器,并使用不同的评测指标分析它们的性能,以便研究人员未来在 WebUAV-3M数据集上进行评测提供广泛的基线。结果表明,在稳健的深度无人机物体跟踪方面仍有很大的改进空间,以及场景约束的深度无人机物体跟踪评测协议的提出也是十分有必要的。

图片

图2:WebUAV-3M中具有代表性的视频序列和标注结果。我们为每个视频序列提供一个自然语言文本描述和两个音频描述。

二、WebUAV-3M数据集构造

2.1 WebUAV-3M大规模数据采集

首先,我们从互联网上收集初始的视频池,作为数据集的候选视频。在这个过程中,我们使用“航拍”、“航拍视频”、“无人机”等关键词从YouTube等网站上搜索和下载超过28k的视频。值得注意的是,此步骤中我们仅保留时长超过10秒的视频;并且将重复的视频、仅包含长时静态目标,或者噪声片段,或者不完整轨迹,或者过大目标的视频进行人工剔除。其次,我们对进行视频池中的视频进行数据清洗以开展下一步的目标标注工作。为了保障数据集的质量,我们提出了一个数据构造质量控制流程。

    图片

图3:WebUAV-3M数据集构造概览。

表2:数据构造质量控制流程。

       图片        

注:WebUAV-3M团队将对本基准进行长期维护和更新。

2.2 半自动化数据标注

视频清洗完毕后,专业的数据标注团队(约10人)使用半自动化标注工具SATA对全部视频进行密集标注。半自动化标注包括以下五个步骤:

  1. 人工标定。从视频中随机挑选感兴趣的运动目标,并在第一帧中给出目标框。

  2. 人工标注。获取当前帧运动目标的边界框。 

  3. 模型初始化或训练。在第一帧时初始化跟踪模型,用于后续帧的自动标注。在后续帧中根据模型预测的效果可以人工选择训练模型或者跳过模型训练步骤。

  4. 模型推理。使用初始化或者训练后的跟踪模型自动预测当前帧的目标框。

  5. 检查和校正错误。标注人员检查模型自动标注的结果,并对标注质量差的目标框进行人工校正。

表3:提出的半自动化标注工具与其它全人工和半自动化工具标注效率的比较。

       图片

       图片

图4:提出的半自动化标注工具标注精度可视化。

2.3 属性、自然语言和音频标注

遵循主流的跟踪基准,我们也为每个视频序列提供属性标注,以便更好地分析跟踪算法的性能。具体地,我们提供了比已有的无人机物体跟踪基准更丰富的17个属性,包括14个目标层级的属性(低分辨率,部分遮挡,完全遮挡,出画面,快速运动,相机运动,视角变化,旋转,形变,背景冗杂,尺度变化,高宽比变化,光照变化,运动模糊)和3个视频层级的属性(复杂度,视频分辨率,视频长度)。

       图片

图5:WebUAV-3M数据集属性分布。

为了促进多模态无人机物体跟踪的研究,我们在WebUAV-3M中提供自然语言和音频描述。具体地,标注团队为WebUAV-3M标注了4,500个英文句子,通过一个英文句子来表达整个视频序列的目标类别名称、位置(相对位置)、属性、动作行为和周围环境。自然语言可以提供辅助信息以实现更加准确的跟踪。当目标的外观发生显著变化或存在相似的干扰物时,自然语言可以作为一种全局语义信息,减少跟踪的不确定性。在自然语言标注的基础上,标注团队将每个英文句子转化为男性和女性的音频描述。最终,我们获得了9,000个音频描述。

2.4 WebUAV-3M数据集划分和统计分析

我们将WebUAV-3M划分为训练集、验证集和测试集,为深度无人机物体跟踪提供一个统一的评测基准。我们的目标是构造一个包含中等难度和多类别视频的紧凑和富信息的测试集。期待评测结果能够可靠地反映不同算法对各种可见和不可见的目标类别和运动类别的泛化能力。训练集包含3,520个视频,208个目标子类,59个运动类,12个超类;验证集包含200个视频,56个目标子类,11个运动类,10个超类;测试集包含780个视频,120个目标子类,36个运动类,12个超类。

       图片        

图6:WebUAV-3M数据集划分结果。

统计分析表明,WebUAV-3M是一个目标类别为长尾分布的数据集,这反映了无人机采集到的视频中运动目标的真实分布情况。长尾分布的特性,也有助于构建在现实世界中具有高准确性和稳健的深度跟踪模型。

       图片

图7:每个目标类别组的视频数量分布。

目标中心位置的分布表明,WebUAV-3M数据集是一个具有多样性的数据集。目标的大小在整个数据集中变化很大,从10到1000像素。我们发现训练集、验证集和测试集具有相似的目标大小分布,并且目标的平均大小为50像素左右,提供了非常具有挑战性的小目标跟踪。视频时长分布表明,提出的WebUAV-3M数据集能够适用于短时目标跟踪和长时目标跟踪。

       图片

图8:WebUAV-3M数据集中目标中心位置,大小和视频时长分布。

三、无人机跟踪-场景约束评测协议

现有的无人机物体跟踪基准,主要使用全局属性来评测跟踪模型的整体性能。尽管对大量视频进行全局评测的结果是衡量跟踪器整体性能的重要指标,但这种全局评测隐藏了许多跟踪器的细微差异,因此无法真正反映不同算法的弱点和优点。在这项工作中,我们提出了一个UTUSC协议,使研究人员能够在不同的应用场景中更加全面和客观地评测他们的无人机物体跟踪算法。

为此,我们提出使用更客观和可度量的标注指标来评测跟踪器,而不是对每帧或整个视频序列使用高度主观性的全局属性。这些标注指标可以直接从真实的边界框和元数据(例如视频序列)中计算得到。具体地,我们为每个视频帧定义了一组细粒度和连续的指标。UTUSC评测协议主要关注以下7个场景:弱光照、长时遮挡、小目标、高速运动、目标失真、双动态干扰和对抗样本。

       图片        

图9:WebUAV-3M中7个场景的部分视频截图。当前帧的视频名称和场景指标值显示在相应图像的顶部。

       图片

图10:测试集的7个场景指标分布。逐帧难度指标表示对跟踪算法的挑战程度。

表4:7个场景子测试集的统计分布。# 表示对应项的视频数量。

       图片         

四、实验结果

根据流行的评测基准,我们使用OPE作为量化评测标准全面地评测了43个具有代表性的跟踪方法,为未来的研究提供广泛的基线。在度量指标方面,除了使用4种现有的度量指标:精度图、标准化精度图、成功率图、平均准确率,我们还提出了一种完整成功率图。新提出的度量指标考虑了预测框和基准框的三个关键的几何因素,即中心点距离、重叠率和宽高比,是一种更加合理和严格的跟踪度量指标。下面展示详细的评测结果,包括整体评测结果,UTUSC protocol评测结果,数据质量验证,类内和类间域泛化,跨超类和数据集迁移学习,定性评测结果。

4.1 整体评测结果

表5:WebUAV-3M 测试集上43个基线跟踪器的整体评测结果。

       图片         

4.2 UTUSC Protocol评测结果

       图片        

图11:UTUSC协议下WebUAV-3M中6个场景子测试集上获得的平均准确率结果。为清晰起见,仅展示前21个跟踪器。粗红色曲线代表所有基线跟踪器的平均性能。

      图片

图12:UTUSC协议下WebUAV-3M中对抗样本场景子测试集上获得的平均准确率结果。

4.3 数据质量验证

表6:在WebUAV-3M训练集上重新训练5个深度跟踪模型,以验证数据标注的高质量。

       图片        

       图片        

图13:不同数量的视频对两个深度跟踪模型训练的影响。

4.4 类内和类间域泛化

表7:SiamFC 在vehicle超类上的类内域泛化结果 (cAUC)。

       图片         

表8:SiamFC 在person超类上的类内域泛化结果 (cAUC)。

       图片

表9:SiamFC 在6个最大超类(人、车辆、船舶、建筑物、公共交通和动物)的两个最大子类上的类间域泛化结果 (cAUC)。

       图片  

4.5 跨超类和数据集迁移学习

表10:SiamFC 在6个最大的超类(人、车辆、船舶、建筑物、公共交通和动物)上的跨超类迁移学习结果(cAUC)。

       图片         

表11:GOTURN、SiamFC和SiamRPN在两个无人机物体跟踪数据集(VisDrone,WebUAV-3M)和一个通用物体跟踪数据集(GOT-10k)上的跨数据集评测结果。

       图片         

4.6 定性评测结果

      图片

图14:在两个具有对抗样本的视频序列上的定性评测结果。

      图片

图15:在6个场景挑战中的定性评测结果。minivan_37(长时遮挡),motorbat_31(双动态干扰),running_20(高速运动),pagoda_29(目标失真),sheepdog_2(小目标),suv_66(弱光照)。

五、总结

在本项工作中,我们首次同时引入了一个带有视觉边界框、自然语言和音频描述的大规模无人机物体跟踪基准WebUAV-3M,用于对深度无人机物体跟踪方法进行全面和严格的评测。据我们所知,WebUAV-3M是迄今为止最全面、规模最大的多模态无人机物体跟踪基准。通过发布WebUAV-3M,我们旨在提供一个专用平台,用于统一训练和评测面向百万级密集标注的深度无人机物体跟踪算法。为了构建一个出色和高质量的基准,我们提出了一个通用的半自动化标注工具SATA来标记巨大的WebUAV-3M数据集。此外,我们提出了一个UTUSC评测协议,以及7个具有细粒度和挑战性的场景子测试集用于实现可靠的评测。实验结果表明,迈向高性能的深度无人机物体跟踪仍有很大的改进空间。我们希望这个基准能够促进大规模多模态深度无人机物体跟踪的研究。最后,完整的数据集、评测协议、代码和跟踪结果都已公开,欢迎广大研究人员通过增加其规模、目标类别数量、属性、评测指标和潜在的任务类型等来共同拓展WebUAV-3M生态系统。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多