分享

IncepFormer:用于语义分割的高效inception transformer

 LibraryPKU 2022-12-08 发布于北京

前言 语义分割通常得益于全局上下文、精细定位信息、多尺度特征等。为了在这些方面改进基于Transformer的分割器,本文提出了一种简单而强大的语义分割架构——IncepFormer。

IncepFormer介绍了一种新颖的金字塔结构Transformer编码器,它同时获取全局上下文和精细定位特征。IncepFormer还集成了具有深度卷积的类Inception架构,以及每个自注意力层中的轻量级前馈模块,有效地获得了丰富的局部多尺度对象特征。

模型部署交流群:732145323。用于计算机视觉方面的模型部署、高性能计算、优化加速、技术学习等方面的交流。


图片

论文:https:///pdf/2212.03035.pdf

代码:github.com/shendu0321/IncepFormer

论文创新思路

ViT的局限性:

1)标准的自我注意力机制带来了大量的计算复杂性,与输入token的数量成二次方。

2) ViT的输出特征图是单尺度的,这可能导致提取的特征缺乏丰富的上下文信息。

为了解决这些问题, Transformer模型采用降采样策略来减少特征大小,从而设计出一种分层编码器架构。金字塔视觉transformer(PVT)是第一个将金字塔结构用于密集预测的工作。之后,Xie等人提出了Mix Transformer(MiT),这也是一种金字塔结构,显示出在语义分割方面比SETR对应物有相当大的改进。Swin Transformer是另一种流行的分层视觉transformer,它计算局部窗口中的自我注意力度,并根据图像大小产生线性复杂度。

然而,这些方法只考虑了跨阶段/层的多尺度性质,而忽略了一个注意力层内对象的多尺度特性,即自我注意力多尺度,导致无法捕获不同大小对象中的丰富特征。

为了解决上述局限性,本文引入了一种新颖且通用的Transformer框架,即语义分割的高效Inception Transformer和Pyramid Pooling(IncepFormer)。

本文的主要贡献


·金字塔transformer编码器,它不仅考虑了不同阶段的特征图中的多尺度,还通过类似于初始的架构将多尺度性质纳入了自我注意力机制中。

·一个简单但功能强大的上采样 Concat解码器,它以极低的计算成本合并了精细定位和全局上下文信息。

·本文的IncepFormer设计了三种不同尺寸的版本。如图1所示, IncepFormer在ADE20K数据集上实现了性能和计算成本之间的最佳权衡。

图片

图1 ADE20K验证集的性能参数曲线。

方法


如图2(a)所示,InceptFormer由两个主要部分组成:1)金字塔Inception  Transformer编码器,用于捕获粗粒度和细粒度特征;以及2)轻量级上采样Concat解码器,以直径方向合并多尺度特征并进行piexl级预测。

图片

图2.(a):所提出的IncepFormer架构,由两个主要部分组成:1)一个金字塔transformer编码器,用于捕获粗粒度和细粒度特征;以及2)轻量级上采样Concat解码器,以直径方向合并多尺度特征并进行peixl级预测。

Inception Transformer Encoder

将InceptionNet中的多尺度卷积思想应用于transformer。所提出的初始transformer可以捕获更丰富的上下文信息,同时显著降低计算复杂性。初始transformer块(IPTB)结构如图2(b)所示。首先输入到标准化层,然后传递到Incep MHSA,其输出与原始输入残差连接。为了更好地适应2D图像结构,使用BatchNorm。第二个子块中,根据2D图像的特征对前馈网络E-FFN进行微调,以进行特征投影。可表述为:

图片

Incep MHSA

Incep MHSA的设计如图3所示,不同于SRA和线性SRA,它们分别使用卷积和平均池来进行注意力操作之前的空间缩减,我们在X上应用三个不同的分支来生成特征图。在图3(c)中,在第一个分支,X经过核大小为1×R的深度卷积,然后再次进行核大小为R×1的深度卷积。

图片

图3.PVT v1中的SRA、PVT v2中的线性SRA和Incep MHSA的比较。

第二个分支在X上应用了核大小为3×3的深度卷积。第三个分支首先使用具有缩减比率R的平均池,然后使用3×3深度卷积。上述过程为

图片

之后,将特征图连接起来:

图片

以这种方式,所获得的token序列O比输入X变平更短。此外,O包含输入X的丰富上下文抽象,因此在计算MHSA时可以作为输入X的替代。分别用Q、K和V表示MHSA中的查询、键和值张量。

图片

Q、K、V被馈送到自我注意力模块以计算注意力度,其公式如下:

图片

E-FFN

前馈网络(FFN)是transformer块特征增强的重要组成部分。如图4(a)所示,在应用于NLP领域的vanilla transformer中,之前的大部分方法都遵循了原来的FFN。

图片

图4。原始前馈网络与高效前馈网络(E-FFN)的比较

这种设计虽然有效,但在学习二维局部性方面的能力较差,而这对于语义分割任务来说是必不可少的。用1 × 1卷积代替FC层,这样生成的FFN网络可以继承CNN的优点(即二维局域性)。首先,将输入序列Xatt转换为二维特征图Xin:

图片

利用上述定义的Icep MHSA和E-FFN,作者设计了三种不同大小的编码器模型,分别称为微型版本IPT-T、小型版本IPT-S和基础版本IPT-B。相应的分割框架分别命名为IncepFormer-T、IncepFormer-S和IncepFormer-B,如图5所示。

图片

图5.三种不同的编码器架构。

A Simple Upsample-Concat Decoder

将每个阶段的特征图上采样到第14个,并连接在一起。然后,采用1 × 1卷积对拼接后的特征图进行线性transformer。最后,将拼接后的特征图输入到另一个1× 1卷积中,预测分割掩码M。该过程可表述为:

图片

与其他典型的解码器相比,本文的解码器省去了对计算量要求很高的组件。而驱动该解码器的关键是金字塔型Transformer编码器,它不仅具有丰富的上下文信息和有效的感受野 (ERF),而且还通过使用多个带状卷积核来考虑小对象的特性。

实验

图片

表1。与最新的ImageNet验证集方法的比较。

图片

图6。城市景观数据集上SegFormer-B2和IncepFormer-S的定性比较。

图片

表2。输出通道C对ADE20K解码器的影响。

图片

表3。不同编码器设计的结果。

图片

表5所示。在ADE20K, cityscape和Pascal VOC数据集上与最先进的基于cnn的方法进行比较。

图片

表6所示。Pascal Context数据集的比较。

结论


本文提出了一种简单、高效和强大的语义分割方法IncepFormer,它包含一个具有Inception自注意和有效FFN的金字塔transformer编码器和一个轻量级的Upsample-Concat解码器。

提出的incp-mhsa注重多尺度条形卷积的使用,在极大地降低复杂度的同时,获得了更好的局部特征提取和空间注意力建模。实验结果表明,IncepFormer在很大程度上超越了目前最先进的基于transformer和基于cnn的方法。

若觉得还不错的话,请点个 “赞” 或 “在看” 吧

如果你是苦苦独自学习很长一段时间,始终进展缓慢,找不到重点的朋友,如果你是纯小白,而老师又放养没有指导的朋友,如果你是仅仅学了yolo,跑了几个github项目,就在那做科研、做项目,却发现不知道如何分析模型,设计或改进网络的朋友。

可以考虑报一下我们辅导班,我们会培养扎实的基础,理解分析的能力,帮你建立起全面的计算机视觉知识体系,掌握独立做项目和搞科研的方法,根据你的个人基础、时间灵活制定学习计划,且这个是1对1辅导,完全保证效果。价格仅6000(支持分期),课程非常全面,对比于这么多课程,这个价格相当廉价。如果有需要报名的朋友,可以扫描下方二维码了解详细情况。

关于辅导班说明,在双12之前仍保留一对一辅导的形式,在双12之后报名的将按小班制来进行,每3个人同时辅导。有不少朋友可能会因为期末或开题而没时间,咱们这个一对一辅导是极为灵活的,完全根据学员的个人时间来定,中途可以停几天。另外也可以选择先报名,寒假再开始正式学习,只要是双12前报名的都仍然是1对1形式,价格与小班制一样,因此,有需要的朋友可以尽快考虑了。仅交1500即可报名。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多