自从ViT提出之后,在过去的一年里(2021年),基于transformer的模型在计算机视觉各个领域全面超越CNN模型。然而,这很大程度上都归功于Local Vision Transformer模型,Swin Transformer是其中重要代表。原生的ViT模型其计算量与图像大小的平方成正比,而Local Vision Transformer模型由于采用local attention(eg. window attention),其计算量大幅度降低,除此之外,Local Vision Transformer模型往往也采用金字塔结构,这使得它更容易应用到密集任务如检测和分割中,因为密集任务往往输入图像分辨率较高,而且也需要多尺度特征(eg. FPN)。虽然Local Vision Transformer模型超越了CNN模型,但是它却越来越像CNN了:首先locality是卷积所具有的特性,其次金字塔结构也是主流CNN模型所采用的设计。那么问题来了,CNN模型相比Local Vision Transformer模型到底差在哪里?能否设计一个纯粹的CNN模型实现和Local Vision Transformer模型一样的效果?近日,MetaAI在论文A ConvNet for the 2020s中从ResNet出发并借鉴Swin Transformer提出了一种新的CNN模型:ConvNeXt,其效果无论在图像分类还是检测分割任务上均能超过Swin Transformer,而且ConvNeXt和vision transformer一样具有类似的scalability(随着数据量和模型大小增加,性能同比提升)。 从ResNet到ConvNeXt论文的整体思路是从原始的ResNet出发,通过借鉴Swin Transformer的设计来逐步地改进模型。论文共选择了两个不同大小的ResNet模型:ResNet50和ResNet200,其中ResNet50和Swin-T有类似的FLOPs(4G vs 4.5G),而ResNet200和Swin-B有类似的FLOPs(15G)。首先做的改进是调整训练策略,然后是模型设计方面的递进优化:宏观设计->ResNeXt化->改用Inverted bottleneck->采用large kernel size->微观设计。由于模型性能和FLOPs强相关,所以在优化过程中尽量保持FLOPs的稳定。 ![]() (1)训练策略原生的ViT需要大规模数据的预训练,而MetaAI在DeiT论文中提出了一种增强版本的训练策略来解决这个问题,这个训练策略也被随后的vision transformer模型所采用。对于ResNet50,其训练策略比较简单(torchvision版本):batch size是32*8,epochs为90;优化器采用momentum=0.9的SGD,初始学习速率为0.1,然后每30个epoch学习速率衰减为原来的0.1;正则化只有L2,weight decay=1e-4;数据增强采用随机缩放裁剪(RandomResizedCrop)+水平翻转(RandomHorizontalFlip)。而DeiT的训练策略则非常heavy:采用了比较多的数据增强如Mixup,Cutmix和RandAugment;训练的epochs增加至300;训练的optimizer采用AdamW,学习速率schedule采用cosine decay;采用smooth label和EMA等优化策略。这里直接将DeiT的训练策略(具体参数设置如下表)应用在ResNet50模型,其性能从原来的76.1%提升至78.8%(+2.7)。这也说明vision transformer模型相比CNN模型的提升很多程度上归功于训练策略的优化,关于这个问题,另外一篇论文Visformer也论证过这一点,而且最近timm库和torchvison库也分别发布了ResNet新的训练策略,并将ResNet50的性能提升至80%+。 (2)宏观设计Swin Transfomer和CNN一样也采用金字塔结构:包含4个stage,每个stage输出不同尺度的特征。这里考虑Swin Transformer和ResNet在宏观设计上的区别,主要有两点:每个stage的计算量占比以及stem cell结构(即stage1之前的模块)。首先是各个stage的计算量占比,对比ResNet50,4个stage的blocks数量分别是(3,4,6,3),而Swin-T的设置为(2,2,6,2),4个stage的计算量比约为1:1:3:1。这里调整ResNet50各个stage的blocks数量以和Swin-T一致:从原来的(3,4,6,3)调整至(3,3,9,3)。调整之后模型性能从78.8%提升至79.4%,不过这里要注意的一点是,调整后其实blocks数量增加了,模型的FLOPs从原来的4G增加至4.5G,基本和Swin-T一致了,所以这个性能的提升很大程度上归功于FLOPs的增加。关于各个stage的计算量分配,并没有一个理论上的参考,不过RegNet和EfficientNetV2论文中都指出,后面的stages应该占用更多的计算量。**第二个就是stem的区别。**对于Swin-T模型,其stem是一个patch embedding layer,实际上就是一个stride=4的4x4 conv。而ResNet50的stem相对更复杂一些:首先是一个stride=2的7x7 conv,然后是一个stride=2的3x3 max pooling。两种stem最后均是得到1/4大小的特征,所以这里可以直接用Swin的stem来替换ResNet的stem,这个变动对模型效果影响较小:从79.4%提升至79.5%。对于ViT模型,其patch size一般较大(eg. 16),只采用一个stride较大的conv来做patch embedding往往会存在一定问题,比如Mocov3论文中就指出patch embed可能会导致训练不稳定,而论文Early Convolutions Help Transformers See Better指出将patch embed设计成几个堆叠的stride=2的3*3 conv,无论是在模型效果上,还是在训练稳定性以及收敛速度都更好;而Swin-T的patch size相对较小,不会出现ViT的上述问题,不过Swin-T采用的是non-overlapping conv,后面有论文指出采用overlapping conv(eg stride=4的7x7 conv)会带来一定的性能提升。 (3)ResNeXt化相比ResNet,ResNeXt通过采用group conv来提升性能,标准的conv其输入是所有的channels,而group conv会对channels进行分组来减少计算量,这样节省下来的计算量用来增加网络的width即特征channels。对于group conv,其最极端的情况就是每个channel一个group,这样就变成了depthwise conv(简称dw conv),dw conv首先在MobileNet中应用,后来也被其它CNN模型广泛采用。对于dw conv,其和local attention有很多的相似的地方,local attention其实就是对window里的各个token的特征做加权和,而且操作是per-channel的;而dw conv是对kernel size范围的token的特征求加权和,也是分channel的。这里的最大区别就是:self-attention的权重是动态计算的(data dependent),而dw conv的权重就是学习的kernel,关于这点,微软的论文Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight有深入的分析。 (4)改用Inverted bottleneck如果把self-attention看成一个dw conv的话(这里忽略self-attention的linear projection操作),那么一个transformer block可以近似看成一个inverted bottleneck,因为MLP等效于两个1x1 conv,并且MLP中间隐含层特征是输入特征大小的4倍(expansion ratio=4)。inverted bottleneck最早在MobileNetV2中提出,随后的EfficientNet也采用了这样的结构。ResNet50采用的是正常的residual bottleneck,这里将其改成inverted bottleneck,即从图(a)变成图(b),虽然dw conv的计算量增加了,但是对于包含下采样的residual block中,用于shortcut的1x1 conv计算量却大大降低,最终模型的FLOPs减少为4.6G。这个变动对ResNet50的影响较小(80.5%->80.6%)。 (5)采用large kernel size自从VGG之后,主流的CNN往往采用较小的kernel size,如3x3和5x5,其中3x3 conv在GPU上有高效的实现。然而Swin-T采用的window size为7x7,这比3x3 conv对应的windwo size要大得多,所以这里考虑采用更大的kernel size。在这之前,首先将dw conv移到inverted bottleneck block的最开始,如上图(c)所示。对于transformer block,其实self-attention也是在开始,同时由于采用inverted bottleneck,将dw conv移动到最前面可以减少计算量(4.1G),后续采用较大的kernel size后模型的FLOPs变动更少。由于模型FLOPs的降低,模型性能也出现一定的下降:80.6%->79.9%。然后调整dw conv的kernel size,这里共实验了5种kernel size:3x3,5x5,7x7,9x9和11x11。实验发现kernel size增加,模型性能有提升,但是在7x7之后采用更大的kernel size性能达到饱和。所以最终选择7x7,这样也和Swin-T的window size一致,由于前面的dw conv位置变动,采用7x7的kernel size基本没带来FLOPs的增加。采用7x7 dw conv之后,模型的性能又回到80.6%。 (6)微观设计经过前面的改动,模型的性能已经提升到80%以上,此时改动后的ResNet50也和Swin-T在整体结构上很类似了,下面我们开始关注一些微观设计上的差异,或者说是layer级别的不同。首先是激活函数,CNN模型一般采用ReLU,而transformer模型常常采用GELU,两者的区别如下图所示。这里把激活函数都从ReLU改成GELU,模型效果没有变化(80.6%)。 经过6个方面的修改或者优化,最终得到的模型称为ConvNeXt,其模型结构如下所示,可以看到,ConvNeXt-T和Swin-T整体结构基本一致,而且模型FLOPs和参数量也基本一样,唯一的差异就是dw conv和W-MSA(MSA的前面和后面都包含linear projection,等价1x1 conv),由于dw conv和W-MSA的计算量存在差异,所以ConvNeXt-T比Swin-T包含更多的blocks。另外MSA是permutation-invariance的,所以W-MSA采用了相对位置编码;而且Swin-T需要采用shifted window来实现各个windows间的信息交互;而相比之下,ConvNeXt-T不需要这样的特殊处理。 ConvNeXt前面我们从ResNet50的Swin-T化,最终得到了ConvNeXt-T模型,对于更大的模型,可以通过调整特征的维度C和各个stage的blocks数量。论文共设计5个ConvNeXt模型,其中前4个模型分别对标Swin,而最后ConvNeXt-XL是一个更大的模型,用来验证模型的scalability。
ConvNeXt在ImageNet1K数据集上的分类效果如下所示,可以看到,ConvNeXt在不同的FLOPs均可以超过Swin,如果采用ImageNet21K预训练后,模型性能有进一步的提升,其中ConvNeXt-XL可以达到87.8%,仅略低于目前的SOTA一点(MViT-H, 512^2,88.8%,只有ImageNet21K)。 在下游任务检测和分割上,ConvNeXt也可以超过Swin,如下表所示: class Block(nn.Module): Isotropic ConvNeXt除了金字塔结构的ConvNeXt,论文还设计了和ViT类似的Isotropic ConvNeXt,即采用同质结构的ConvNeXt:首先通过一个patch embedding layer得到patch embedding,然后送入参数一样的blocks。从效果上,Isotropic ConvNeXt和ViT效果基本一致,这也许说明dw conv也是能匹敌global attention的。 小结从创新上看,ConvNeXt并没有太多的新意,看起来就是把vision transformer一些优化搬到了CNN上,而且之前也有很多类似的工作,但我认为ConvNeXt是一个很好的工作,因为做了比较全面的实现,而且ConvNeXt在工业部署上更有价值,因为swin transformer的实现太过tricky。从CNN到vision transformer再到CNN,还包括中间对MLP的探索,或许我们越来越能得出结论:架构没有优劣之分,在同样的FLOPs下,不同的模型的性能是接近的。但在实际任务上,受限于各种条件,我们可能看到不同模型上的性能差异,这就需要具体问题具体分析了(算法工程师的价值)。 ConvNeXt的detectron2版本:https://github.com/xiaohu2015/nndet2。 参考
|
|
来自: 汉无为 > 《Transform》