分享

YOLO的可解释性:利用Grad-CAM解释目标检测框架(附论文下载)

 mynotebook 2022-11-25 发布于湖南

2022

从此不迷路

计算机视觉研究院
图片

图片

学习群扫码在主页获取加入方式

01

概述

研究者研究了视觉物体检测器的可解释性问题。具体来说,研究者在YOLO目标检测器的示例中演示了如何将Grad-CAM集成到模型架构中并分析结果。最后展示了如何计算个体检测的基于归因的解释,并发现结果的归一化对其解释有很大影响。

02

背景

当今复杂的计算机视觉模型需要解释其行为的机制。这推动了可扩展人工智能(XAI)[Adadi and others, “Peeking inside the black-box: A survey on explainable artificial intelligence (XAI),” IEEE Access]的深入研究。视觉领域中关于XAI的大多数工作都集中于解释视觉分类器,即它们学习到的表示和/或它们的决策。
图片

目前,缺乏用于视觉目标检测器的XAI方法,因为它们的特殊架构阻碍了XAI方法的应用。在今天分享中,研究者以YOLO检测器为例,研究了视觉目标检测器的XAI问题。研究者将Grad-CAM集成到模型中,以生成单个目标检测的解释,即边界框。在检测级别计算注意力图,以评估哪些信息导致某个决策。为此,研究者关注YOLO检测器估计的两个分数,即目标性和类概率,以获得更全面的解释。

图片

研究者批判性地分析了结果,并提出了不同的标准化策略,以使输入图像内或不同图像之间的不同目标检测的注意力图具有可比性。研究者分析了真检测和假检测的结果,并比较了不同的标准化变量以显示结果。

在目标检测和XAI方面都有大量相关工作。令人惊讶的是,这两个领域的结合几乎没有被研究过。罕见的例外是Tsunakawa等人的工作[H. Tsunakawa, Y. Kameya, H. Lee, Y. Shinya, and N. Mitsumoto,“Contrastive relevance propagation for interpreting predictions by asingle-shot object detector,” in 2019 International Joint Conference onNeural Networks (IJCNN).],他们提出了用于单镜头多框检测器,基于传播的XAI方法(逐层相关传播,LRP)的扩展,以及Petsiuk等人[V. Petsiuk, R. Jain, V. Manjunatha, V. I. Morariu, A. Mehra, V. Ordonez,and K. Saenko, “Black-box explanation of object detectors via saliencymaps,” in Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition],他们提出基于随机输入采样的用于目标检测器的事后模型不可知XAI方法。缺乏文献可能是目标检测器高度特定的架构阻碍XAI方法集成的结果。目标检测器需要解释定位和分类方面,并提供影响检测可能性的多个分数。这使得许多特别是自学的解释方法的直接应用变得困难。

03

新方法

检测模型基于Tiny YOLO v3架构,对可重新配置的硬件进行了推理优化,并包含两个检测头,以说明具有不同规模的目标。每个头部的最后一个卷积层存储每个潜在边界框的多个分数:(i)objectness,它提供了一般观察目标的可能性;(ii)所有目标类的类概率向量。对于头部1,该层的大小为1x1x512x30,对于头部2,该层为1x1x256x30。这些层中的特定神经元代表Grad-CAM的输入,用于生成解释。在这些层之后,YOLO架构应用非极大抑制(NMS),并且决策阈值过滤掉最可能的检测结果。

图片

Grad-CAM最初是为传统的CNN架构提出的,用于根据在最后一个卷积层中学习到的抽象特征来解释决策。考虑到YOLO基于卷积滤波器堆栈,Grad-CAM是适用的,但并非没有某些修改。对于给定的检测,首先通过反转NMS过程来识别相应头部的最后一个卷积层中的神经元,该层对应于所研究的边界框的类概率和目标。这些神经元代表计算朝向下层卷积层(即卷积堆栈的顶层特征图)神经元的梯度的起点。

研究者采用两步方法来获得两个分数的解释。梯度首先用于对底层卷积层的激活图进行加权。然后在层的所有通道上对加权激活图进行平均,并放大(即插值)和映射(即颜色编码)到输入图像(416px x 416px),见上图。放大的激活模式突出显示了输入图像中与所调查边界框的类或目标有密切关系的部分。注意,由于YOLO的架构,Grad-CAM的结果是全局图像级别的激活,即,它们不限于观察到的边界框,如下图所示。

图片

渐变CAM激活默认情况下为最小-最大标准化,以提高可见性。这导致在同一图像中和不同图像中的不同目标检测之间的不可比较的激活模式。为了解决这一问题,研究者提出了三种不同的标准化级别:检测级别(默认)、图像级别(图像中所有解释的联合标准化)和数据集级别(一组图像中所有说明的联合标准)。

04

实验及结果

下图显示了在同一输入图像上错误检测到的卡车。红色海报上的白色矩形文字似乎误导了探测器,使其看到了一辆卡车。目标和类概率在检测级别都会强烈激活,这会给人一种印象,即检测器以高置信度失败。这实际上是不正确的,这可以通过数据集级别(未显示)的归一化来看出,在数据集级别,两种激活都被强烈衰减,这表明检测器实际上对检测不确定。

图片

研究者通过将Grad-CAM集成到YOLO中,研究了目标检测的可解释性。我们可以可视化其内部决策得分,从而帮助解释目标检测。

结果表明,标准化对于使不同的解释具有可比性至关重要,例如,在不同的图像中。研究者的方法很有效:生成一个解释大约需要半秒钟。未来,我们的目标是使用这些解释来识别运行时的潜在错误检测。

END


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多