分享

超200+篇文献!一文知晓"伪装场景理解"领域近况

 我爱计算机视觉 2023-04-28 发布于江苏

自2020年伪装目标检测任务被提出后,领域内涌现出多个子任务、榜单性能不断被刷新,2023年的我们如何快速上手伪装场景理解?如何无痛发现最强模型是何方神圣?如何快速抢占下一个论文创新点?小编带你一文知晓伪装场景理解领域最新近况。

今天为大家介绍的这篇论文详述了“伪装场景理解”,作者团队通过对 200多篇相关文献进行全面调研、评测,从它们的性能、优点、缺点、复杂性等进行分析讨论,强调了若干领域挑战,构建了第一个面相应用场景的伪装缺陷分割数据集CDS2K,并提供了多个潜在的研究方向。

论文标题:Advances in Deep Concealed Scene Understanding

综述论文链接:https:///abs/2304.11234

项目地址:https://github.com/DengPingFan/CSU

▌引言 

在正式进入文章介绍前,我们先借助一张图片来了解一下什么是“伪装物体”,如下图1中,左图和右图中分别隐藏了七只和六只小鸟,你发现了吗?生物学家把这种现象称为背景匹配伪装,用于表示一个或者多个生物为了防止被发现,尝试将其颜色与周围环境“无缝地”匹配(答案请参见本文末图6)。

图1. 背景匹配伪装示例

总结来说,伪装场景理解(Concealed Scene Understanding, CSU)用于感知具有伪装属性的物体,是一个热门的计算机视觉课题。有关“伪装”的更多信息可以参考2022年刊表于TPAMI的期刊论文SINetV2 [1]: 

◆ 论文链接:https://ieeexplore./document/9444794 

◆ 中文介绍:https://cg.cs./jittor/news/2021-06-11-00-00-cod/ 

◆ GitHub项目:https://github.com/GewelsJI/SINet-V2

自2020年来,该领域涌现出多个任务分支和基准数据集,多个SOTA模型不断突破性能上限。在如此蓬勃发展的技术和应用背景下,领域内亟需一个时间最新、范围最广、体量最大的综述文章,以帮助那些初入领域的研究人员快速了解当前伪装场景理解领域的整体发展近况,包括当前取得的成就以及未来的主要挑战。

文字太长不看版本,该综述主要提供如下四点贡献: 

◆ 针对伪装任务背景、技术路线、数据集构建等进行了详细回顾; 

◆ 构建了当前领域内最新、最全面的伪装目标分割测评系统,包括模型预测结果图、基于九个评测指标数值、模型参数量、模型计算复杂度,详细数据已经公开在GitHub网站:https://github.com/DengPingFan/CSU#csu-benchmark; 

◆ 提供伪装工业缺陷分割数据集CDS2K,包含来自多种工业场景中的困难样例,用于验证伪装模型在工业应用上的可移植性; 

◆ 尝试讨论了若干公开问题以及潜在的研究方向,特别是大模型的背景下伪装视觉感知领域的发展挑战与机遇。

▌任务背景 

图2. 七个常见的伪装场景理解任务分类

当前伪装场景理解领域内包含图像和视频两大类型任务,其中针对图像级别的任务有:伪装目标分割(见图2-a)、伪装目标定位(见图2-b)、伪装实例排序(见图2-c)、伪装实例分割(见图2-d)、伪装目标计数(见图2-e);而针对视频级别的任务有:视频伪装目标检测(见图2-f)、视频伪装目标分割(见图2-g)。作者指出,与图像级别的伪装场景理解任务相比,视频级别任务发展较为缓慢,其原因是视频数据的收集和标注过程十分耗时且耗力。

▌相关技术方案回顾 

该综述系统地回顾了近4年来基于深度学习方法的相关文献、任务定义和数据类型,同时作者还建立了一个 GitHub 仓库(https://github.com/GewelsJI/SINet-V2/blob/main/AWESOME_COD_LIST.md)用于持续跟踪该领域内的最新工作。如表格1所示,作者全面回顾了在四个不同图像伪装场景任务中,所出现的50个技术解决方案。

表1. 针对图像级别伪装场景理解的技术解决方案回顾

作者还针对领域内发展相对成熟的伪装目标分割领域进一步细分讨论,根据其网络结构分类为:多流框架(见图3-a)、自底向上/自顶向下框架(见图3-b)和分支框架(见图3-c)。还针对不同方法的学习策略进行了分类,包括:单任务学习、多任务学习、数据高效学习三种策略。

图3. 伪装目标分割任务的网络框架分类概览

如表格2所示,作者进一步回顾了两个视频级别伪装场景理解任务中所出现的9个不同解决方案。

表2. 针对视频级别伪装场景理解的技术解决方案回顾

▌相关数据集回顾 

表格3总结了近年来伪装场景理解领域中所出现的十个不同的数据集,被广泛地应用于多个任务,包括:伪装目标分割、伪装实例分割、伪装目标定位、伪装实例排序、伪装目标计数等。

表3. 伪装场景理解数据集总结

▌评测基准 

基于上述文献回顾,作者进一步针对较为成熟的伪装目标分割领域进行测评。表格4、5、6提供了当前领域内最新、最全面的伪装目标分割测评系统,包括模型预测结果图、基于九个评测指标数值、模型参数量、模型计算复杂度,上述详细数据已经公开在GitHub网站中:https://github.com/DengPingFan/CSU#csu-benchmark。

表4. CAMO基准测评表格

表5. NC4K基准测评表格

表6. COD10K基准测评表格

针对那些具有尖端性能表现的模型,作者在COD10K数据集上进行了基于属性的定性结果对比,如下图4所示。

图4. 在COD10K上基于属性的定性结果对比

▌伪装缺陷分割数据集 

作者重新组织了一个用于检测伪装缺陷分割数据集CDS2K(见图5),该数据集包含了来自不同工业场景的困难样本。

图5.  伪装缺陷分割数据集样本展示和统计数据

未来展望 

最后,作者总结并讨论了伪装场景理解社区内存在的若干开放问题: 

◆ 模型:最常见的做法是基于UNet架构进行模型设计,并添加注意力模块进行特征增强。作者指出,考虑额外的先验信息和/或引入辅助任务参与训练,可以在一定程度上提高性能,这方面还有许多潜在的问题值得去探索; 

◆ 训练:全监督学习仍是当前伪装目标分割领域的主流策略,但很少有研究解决数据不足或标签不足条件下的学习问题。 

◆ 数据集:现有的数据集规模不足且缺乏多样性,社区内也需要更多专业化领域的伪装样本,例如自动驾驶和临床诊断领域; 

◆ 性能:基于Transformer架构和ConvNext架构的模型在性能上明显优于其他对比模型。计算代价和模型性能的权衡仍未得到充分研究。 

◆ 评价指标:当前没有专门适用于伪装领域的评价指标,去考虑到不同数据样本的不同伪装程度,从而给出一个无偏的评价结果。 

最后,作者强调了若干潜在方向,旨在鼓励这一领域的进一步研究和发展: 

◆ 基于数据/标签的高效学习策略:传统的全监督学习策略对数据标注需求较高,十分耗费资源。在实际应用场景中,模型是否能够在有限的资源上工作,并具有良好的可转移性。因此,为伪装场景理解开发高效的学习策略是一个很有前途的方向; 

◆ 领域自适应:伪装样本通常从自然场景中收集而来,因而在自动驾驶等跨领域的特殊场景中部署模型,来检测具有伪装属性的目标是一个挑战。 

◆ 高保真度数据合成:为降低算法偏差,增加数据多样性和数据规模十分重要。在AIGC技术背景下,可以借鉴生成对抗网络和扩散模型等思想快速创建一些合成数据集。 

◆ 自动网络架构搜索(NAS):在伪装背景下,NAS技术可以帮助设计更有效的网络架构,来处理复杂背景、高度变化等物体外观和有限的标签数据。

◆ 大模型和提示工程:Segment Anything模型的出现很大程度上变革了计算机视觉中分割领域的研究思路,尽管它在几个伪装场景表现不那么如何(相关讨论可以参见论文:https:///abs/2304.06022v2 )。值得一提的是,研究者可以充分利用SAM的提示工程学习范式来简化工作流,即:使用一个训练好的编码器、特定任务下的提示和多任务预测头来进行下游微调。这种学习范式有望成为计算机视觉领域的主流趋势。大型语言模型(LLMs)给人工智能带来了新的机遇和挑战,从而迈向通用人工智能进程。另外,对学术界来说,训练耗费资源的大模型是一个挑战,因而可能出现一个新范式,把最前沿的深度伪装场景理解模型作为专家模型,而大模型可以作为一个外部组件,通过提供辅助决策、场景表征等来协助专家模型。 

◆ 语义感知能力:现有的伪装场景理解技术方案侧重于利用外观属性(如颜色、纹理、边界)来识别伪装物体,而没有从语义的角度(例如物体之间的关系)进行充分的场景感知和输出。语义层面的认知是下一代伪装视觉感知的关键。因此在不久未来,伪装场景理解模型应该包含各种语义能力,包括整合高层次的语义、学习视觉语言知识以及模拟物体间的互动关系。

图6. 针对图1中所给出的答案,你猜对了吗?

END

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多