搜索

分享

QQ空间 QQ好友新浪微博微信

【原】ConvNeXt V2 发布：自监督学习加持，卷积网络仍大有可为

我爱计算机视觉 2023-01-05 发布于江苏

展开全文

近年来，从自然语言处理领域出来的transformer架构，在计算机视觉领域获得了长足的发展，一时间transformer-based方法席卷CV界。

作为捍卫卷积网络尊严大本营的Meta AI FAIR ，之前已经发布了ConvNeXt 模型，在视觉的各任务中表现出了强大的性能，最近他们又开源了ConvNeXt V2，借助大火的自监督学习模型MAE的方法，实现了不逊于最优秀的ViT模型的性能，而且一口气开源了8个由小到大的模型，方便开发者在各种场景中使用。

论文作者信息：

作者来自KAIST、Meta AI、纽约大学。

论文地址：

https:///pdf/2301.00808.pdf

开源代码：

https://github.com/facebookresearch/ConvNeXt-V2

以下是ConvNeXt V2与自监督、监督学习的ConvNeXt V1在ImageNet上的Top1精度对比，可见不同体量的模型均获得了显著的性能提升。

ConvNeXt V2的设计初衷，乃是作者认为自监督学习算法如MAE可以助力卷积网络学习到更好的图像表示，但作者发现如果只是简单的结合MAE与ConvNeXt，效果差强人意，其改进后的算法，即加入用于防止特征坍塌（Feature collapse）的GRN层（Global Response Normalization）的全卷积masked autoencoder（FCMAE）则获得了大幅性能提升，即ConvNeXt V2。作者并据此缩放，开发并开源了8个体量大小不同的模型，使在不同计算场景下ConvNeXt V2都有用武之地。

FCMAE框架的简单示意：

GRN 伪代码：

GRN层加入的位置：

作者在实验比较部分，主要是跟目前比较被推崇的ViT相关算法进行了比较。（硬扛ViT的火药味非常明显）

如下，在ImageNet图像分类任务上，ConvNeXt V2取得了与Swin-transformer相似的性能。

在下游任务中，比如目标检测与实例分割，使用ConvNeXt V2为骨干网的Mask-RCNN取得了与Swin相比略好的结果。

在语义分割中，ADE20K数据集上也表现不俗，相同体量的模型，与Swin相比，仍然足可比肩。

Meta AI 的这项研究表明，卷积网络仍然潜力巨大，这次开源的ConvNeXt V2值得大家一试。当然其是否能在大量视觉任务中真正具有替代甚至超越类似Swin算法的潜力，仍然需要更多研究工作来验证支撑。

快去试试吧：

https://github.com/facebookresearch/ConvNeXt-V2

END

欢迎加入「自监督」交流群👇备注：自监督

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：我爱计算机视觉 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

我爱计算机视觉

关注对话

TA的最新馆藏

综述 | 基于 Transformer 网络的多模态学习
超200+篇文献！一文知晓"伪装场景理解"领域近况
当AIGC遇见灌篮高手，一秒钟让动漫/艺术人物在虚拟世界中重现
全景鱼眼相机+俯视+深度学习：封闭场景视频监控的好选择
SAM 模型真的是强悍到可以“分割一切”了吗？
我在Github上建了一个项目快1.2K stars了，你应该也需要！

喜欢该文的人也喜欢更多

热门阅读换一换