【ECCV 2020】GINet：Graph Interaction Network for Scene Parsing

悦光阴 2022-10-12 发布于北京

展开全文

一、背景

一个不同类型的场景，把每个场景的人的场景和一个组成部分，不同的场景和不同场景的一个场景，事物类别是背景类别，例如天空、天空特定类型的数据集的类别，以及这种数据集的类别也比较一般，比如ADE20K集有150个类别。

场景解析里很很一件事情怎么安排时间的信息，因为特别想从RGB信息到其他类别的重要信息，所以想在其他类别上看到它想要的一些任务点的重要信息。最简单的方法是用 FCN（上图）去类型层问题的类型和池化层，但有两个点：

在一个点上它的感觉是一致的。
理论的感受和实际的感受是不同的。

感觉不同的生物。

在 FCN 之后有工作提出来尝试把多层次的信息加入到建立内部，发现 PSPNet 是把特征池化成不同的大小，然后再把它们连接起来一些，这样每个特征位置上都能够捕捉到中多尺寸的方法；deeplab 模块试验用不同的空洞率的空洞去定尺寸的不同尺寸。多空是它的尺寸是手工定义的。

那没有一种更好的方法是某个特定的对象有自己的特定上下文信息，非就是这种情况，针对每个本地人都求这个和其他某种特定的上下文信息之间的关系，和OC的分区任务里 DANet 都是这方面的工作。

最近有一些工作减少了针对非本地企业的计算复杂度，因为某些情况都要求非本地化的情况下，如果有一些相似的区域可以分享。所以有一些工作提提出来把 G&nb ;分配一个布局部分，显示一个 CN 的分区 GCN&nb sp;有一个共同的特点一共分三步空间，前期就是投射：第二步是从特征空间投射到图的空间推理：在图空间上进行 GCN（在投射到图）每个时候代表一个结点实际上有图像上的一些区域，那么只要在这些结点之间执行 GCN 就在瞬间区域之间的关系）；第三步是反投射：把这个特征从图上到特征空间上的反反反增强去增强特征间投射能力。

二、动机

针对以上背景和前人工作，这篇文章考虑的问题是 context 只是去捕捉其他像素点的信息可能不够，是不是可以把一些语义的上下文概念加进来，作者尝试在第二步图推理时将语义概念加进来。也就是说，作者希望能够不仅去推理视觉区域之间的关系，而且把语义概念和它们之间的关系加到推理过程中来。

三、主要贡献

提出了用于上下文建模的新型“图形交互单元”（GI单元），该单元结合了基于数据集的语义知识，以促进视觉图上的上下文推理。
提出了语义上下文损失（SC-loss）来规范训练过程，该方法强调了出现在场景中的类别，并抑制了没有出现在场景中的类别。

四、方法

下图是这篇文章的整体框架。

首先，采用经过预训练的 ResNet 作为 backbone，在给定输入 2D 图像的情况下，可以提取视觉特征（视觉表示）；同时，可以以分类实例（类）的形式提取基于数据集的语义知识，并将其输入 Word Embedding 以实现语义表示。

其次，视觉特征和语义表示由所提出的 GI 单元进行投射操作，以分别构造两个图（视觉图和语义图）：在视觉特征上建立了一个编码视觉区域之间依赖关系的图，其中节点表示视觉区域，边表示区域之间的相似性或关系；另一个图是建立在与数据集相关的类别（由 word embedding 表示）之上的，该类别对语义相关性和标签相关性进行编码。

接下来，在GI单元中进行图交互操作，其中语义图用于在视觉图上促进上下文推理，并指导从视觉图提取基于示例的语义图。（交互的结果是：VisG 上的每个节点得到了一些它需要的语义上下文信息；SemG 上的每个节点在从 Embedding 抽取出来的时候是一个General的表征，但在经过图交互之后它实际上是对于当前图片的每一个语义类别的表征了。）

然后，由GI单元生成的演化后的视觉图通过反投射操作，把特征从图空间反投射到特征空间上，以增强每个局部视觉表示的判别能力；语义图则在训练阶段受到语义上下文损失（SC-loss）的更新和约束。（约束语义图上每一个类别的有无，SC-loss在文章实验当中显示可以有效地提高小物体类别的识别率。）

最后，采用1×1的结果，然后进行简单的双线性获取解析结果。