重磅干货,第一时间送达 尽管使用卷积神经网络(CNNs)作为骨干在计算机视觉领域取得了巨大的成功,但这项工作研究了一种简单的骨干网络,对于许多没有卷积的密集预测任务很有用。不同于最近提出的为图像分类专门设计的变压器模型(如ViT),作者提出了金字塔视觉变压器(PVT),它克服了将变压器移植到各种密集预测任务中的困难。与现有技术相比,PVT有几个优点。 (1),通常有低分辨率的输出和高成本的计算和内存,PVT不仅可以训练图像的密度分区上实现高输出分辨率,为密集的预测是很重要的,但是也可以使用一个逐步萎缩的金字塔减少大型特征图的计算。 (2) PVT继承了CNN和Transformer的优点,通过简单地替换CNN骨干,使其成为各种视觉任务的统一骨干,无需卷积。 (3)作者通过大量的实验验证了PVT,结果表明PVT提高了许多下游任务的性能,如对象检测、语义和实例分割。例如,在相当数量的参数下,RetinaNet+PVT在COCO数据集上获得了40.4个AP,超过了RetinNet+ResNet50(36.3个AP)的4.1个绝对AP(见图2)。作者希望PVT可以作为像素级预测的替代和有用的骨干,促进未来的研究。 代码链接:https://github.com/whai362/PVT 以下列出了这项工作的主要贡献。
提出的金字塔视觉转换器(PVT)的总体架构 整个模型分为四个阶段,每个阶段由一个贴片嵌入层和一个li层变压器编码器组成。按照金字塔结构,四个阶段的输出分辨率逐渐从4步缩小到32步。 多头注意(MHA)与空间还原注意(SRA) 通过空间缩减操作,作者的SRA的计算/存储成本可能比MHA低得多,因此作者的SRA对高分辨率的feature map更加友好。 PVT系列详细设置 该设计遵循了ResNet[15]的两条规则:(1)随着网络深度的增长,隐藏维度逐渐增大,输出分辨率逐渐减小;(2)主要计算资源集中在阶段3。 不同骨干设置下COCO val2017上的视黄网AP曲线上图:在ImageNet上使用预先训练的权重vs.随机初始化。底部:PVT-S vs. R50[15]。 ![]() 在本文中,作者引入了PVT,一种用于密集预测任务如目标检测和语义分割的纯变压器骨干。为了在有限的计算/内存资源下获得多尺度的特征图,作者提出了渐进收缩金字塔和空间缩减关注层。在目标检测和语义分割基准上进行的大量实验验证了在相当数量的参数下,作者的PVT比精心设计的CNN骨干更强。 虽然PVT可以替代CNN骨干(如ResNet、ResNeXt),但仍有一些针对CNN的特定模块和操作在本研究中没有考虑,如SE[16]、SK[24]、expanded convolution[57]、NAS[48]。而且,经过多年的快速发展,已经有了Res2Net[12]、EfficientNet[48]、ResNeSt[60]等设计精良的CNN骨干。相反,基于变压器的计算机视觉模型还处于早期发展阶段。因此,作者相信未来有许多潜在的技术有待探索。作者希望作者的方法可以作为一个很好的起点。 每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。 - END - ![]() #投 稿 通 道# 让你的论文被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。 总有一些你不认识的人,知道你想知道的东西。深度学习爱好者 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 深度学习爱好者 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。 📝 来稿标准: · 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) · 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 · 深度学习爱好者 默认每篇文章都是首发,均会添加“原创”标志 |
|