分享

ConvNeXt V2 发布:自监督学习加持,卷积网络仍大有可为

 我爱计算机视觉 2023-01-05 发布于江苏

近年来,从自然语言处理领域出来的transformer架构,在计算机视觉领域获得了长足的发展,一时间transformer-based方法席卷CV界。

作为捍卫卷积网络尊严大本营的Meta AI FAIR ,之前已经发布了ConvNeXt 模型,在视觉的各任务中表现出了强大的性能,最近他们又开源了ConvNeXt V2,借助大火的自监督学习模型MAE的方法,实现了不逊于最优秀的ViT模型的性能,而且一口气开源了8个由小到大的模型,方便开发者在各种场景中使用。

论文作者信息:

作者来自KAIST、Meta AI、纽约大学。

论文地址:

https:///pdf/2301.00808.pdf

开源代码:

https://github.com/facebookresearch/ConvNeXt-V2

以下是ConvNeXt V2与自监督、监督学习的ConvNeXt V1在ImageNet上的Top1精度对比,可见不同体量的模型均获得了显著的性能提升。

ConvNeXt V2的设计初衷,乃是作者认为自监督学习算法如MAE可以助力卷积网络学习到更好的图像表示,但作者发现如果只是简单的结合MAE与ConvNeXt,效果差强人意,其改进后的算法,即加入用于防止特征坍塌(Feature collapse)的GRN层(Global Response Normalization)的全卷积masked autoencoder(FCMAE)则获得了大幅性能提升,即ConvNeXt V2。作者并据此缩放,开发并开源了8个体量大小不同的模型,使在不同计算场景下ConvNeXt V2都有用武之地。

FCMAE框架的简单示意:

GRN 伪代码:

GRN层加入的位置:

作者在实验比较部分,主要是跟目前比较被推崇的ViT相关算法进行了比较。(硬扛ViT的火药味非常明显)

如下,在ImageNet图像分类任务上,ConvNeXt V2取得了与Swin-transformer相似的性能。

在下游任务中,比如目标检测与实例分割,使用ConvNeXt V2为骨干网的Mask-RCNN取得了与Swin相比略好的结果。

在语义分割中,ADE20K数据集上也表现不俗,相同体量的模型,与Swin相比,仍然足可比肩。

Meta AI 的这项研究表明,卷积网络仍然潜力巨大,这次开源的ConvNeXt V2值得大家一试。当然其是否能在大量视觉任务中真正具有替代甚至超越类似Swin算法的潜力,仍然需要更多研究工作来验证支撑。

快去试试吧:

https://github.com/facebookresearch/ConvNeXt-V2

END



欢迎加入「自监督交流群👇备注:自监督



    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多