【原】金字塔视觉转换器：无卷积密集预测的通用支柱

小白学视觉 2021-03-26

展开全文

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

尽管使用卷积神经网络(CNNs)作为骨干在计算机视觉领域取得了巨大的成功，但这项工作研究了一种简单的骨干网络，对于许多没有卷积的密集预测任务很有用。不同于最近提出的为图像分类专门设计的变压器模型(如ViT)，作者提出了金字塔视觉变压器(PVT)，它克服了将变压器移植到各种密集预测任务中的困难。与现有技术相比，PVT有几个优点。

(1),通常有低分辨率的输出和高成本的计算和内存,PVT不仅可以训练图像的密度分区上实现高输出分辨率,为密集的预测是很重要的,但是也可以使用一个逐步萎缩的金字塔减少大型特征图的计算。

(2) PVT继承了CNN和Transformer的优点，通过简单地替换CNN骨干，使其成为各种视觉任务的统一骨干，无需卷积。

(3)作者通过大量的实验验证了PVT，结果表明PVT提高了许多下游任务的性能，如对象检测、语义和实例分割。例如，在相当数量的参数下，RetinaNet+PVT在COCO数据集上获得了40.4个AP，超过了RetinNet+ResNet50(36.3个AP)的4.1个绝对AP(见图2)。作者希望PVT可以作为像素级预测的替代和有用的骨干，促进未来的研究。

代码链接：https://github.com/whai362/PVT

论文创新点

以下列出了这项工作的主要贡献。

作者提出了金字塔视觉转换器(PVT)，它是第一个为各种像素级密集预测任务设计的骨干，没有卷积。结合PVT和DETR，作者可以构建一个没有卷积和手工制作的密集锚和非最大抑制(NMS)等组件的端到端目标检测系统。
通过设计渐进缩小金字塔和空间减少注意力(SRA)，作者克服了将Transformer移植到密集像素级预测的许多困难，这可以减少使用Transformer时的资源消耗，使PVT能够灵活地学习多尺度和高分辨率的特征地图。
作者通过将PVT应用于许多不同的任务来验证它，例如，图像分类、目标检测和语义分割，并将其与精心设计的ResNets[15]和ResNeXts[56]进行比较。如图2所示，作者看到与现有技术相比，具有不同参数数量的PVT可以持续改善性能。例如，在COCO val2017上，RetinaNet+PVTSmall获得了40.4个AP，比RetinaNet+ResNet50高出4.1个AP (40.4 vs 36.3)。此外，retina anet +PVT-Large的AP达到42.6，比retina anet +ResNeXt101- 64x4d的AP高出1.6，参数数量减少了30%。

框架结构

提出的金字塔视觉转换器(PVT)的总体架构

整个模型分为四个阶段，每个阶段由一个贴片嵌入层和一个li层变压器编码器组成。按照金字塔结构，四个阶段的输出分辨率逐渐从4步缩小到32步。

多头注意(MHA)与空间还原注意(SRA)

通过空间缩减操作，作者的SRA的计算/存储成本可能比MHA低得多，因此作者的SRA对高分辨率的feature map更加友好。

PVT系列详细设置

该设计遵循了ResNet[15]的两条规则:(1)随着网络深度的增长，隐藏维度逐渐增大，输出分辨率逐渐减小;(2)主要计算资源集中在阶段3。

实验结果

不同骨干设置下COCO val2017上的视黄网AP曲线上图:在ImageNet上使用预先训练的权重vs.随机初始化。底部:PVT-S vs. R50[15]。

结论

在本文中，作者引入了PVT，一种用于密集预测任务如目标检测和语义分割的纯变压器骨干。为了在有限的计算/内存资源下获得多尺度的特征图，作者提出了渐进收缩金字塔和空间缩减关注层。在目标检测和语义分割基准上进行的大量实验验证了在相当数量的参数下，作者的PVT比精心设计的CNN骨干更强。

虽然PVT可以替代CNN骨干(如ResNet、ResNeXt)，但仍有一些针对CNN的特定模块和操作在本研究中没有考虑，如SE[16]、SK[24]、expanded convolution[57]、NAS[48]。而且，经过多年的快速发展，已经有了Res2Net[12]、EfficientNet[48]、ResNeSt[60]等设计精良的CNN骨干。相反，基于变压器的计算机视觉模型还处于早期发展阶段。因此，作者相信未来有许多潜在的技术有待探索。作者希望作者的方法可以作为一个很好的起点。

论文链接：https:///pdf/2102.12122.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。深度学习爱好者或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

深度学习爱好者鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

· 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

· 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

· 深度学习爱好者默认每篇文章都是首发，均会添加“原创”标志