详细信息如下:
01 摘要基于 Transformer 的架构已经在各种视觉领域变得具有竞争力,尤其是图像和视频。虽然之前的工作已经孤立地研究了这些模态,但拥有一个共同的架构表明可以为多种视觉模态训练一个统一的模型。先前统一建模的尝试通常使用为视觉任务量身定制的架构,或者与单一模态模型相比获得更差的性能。 在这项工作中,作者展示了掩蔽自动编码(masked autoencoding)可用于在图像和视频上训练一个简单的视觉Transformer,而不需要任何标记数据。这个单一模型在图像和视频基准上学习的视觉表示与单一模态表示相当或更好,同时使用更简单的架构。 本文的单个预训练模型可以微调,在 ImageNet 上达到 86.5%,在具有挑战性的 Something Something-v2 视频基准上达到 75.3%。此外,该模型可以通过丢弃 90% 的图像和 95% 的视频patch来学习,从而实现极快的训练。 02 Motivation从图像到 3D和视频,Transformer 架构在计算机视觉中的不同视觉模态中迅速变得具有竞争力。这种向统一架构的融合自然表明应该能够训练一个跨不同视觉模态的单一模型。然而,与单一模态模型相比,最近训练统一模型的尝试要么导致性能更差,要么需要使用替代架构,即 Swin Transformer,使其具有针对视觉任务的归纳偏置。虽然用于视觉的专用 Transformer 架构可以为视觉模式提供更好的性能,但它们失去了普通 Transformer 的通用性和灵活性,使得以后对文本、语音、3D 等不同领域进行建模变得更加困难。 在这项工作中,作者训练了一个适用于图像和视频的普通 Transformer。为此,作者发现最近几项关于使用掩蔽预训练的工作能够极大地提高了 Transformer 在图像、视频或跨文本、音频和图像的性能。作者认为,这种掩蔽预训练是一种可行的策略,可以跨视觉模态预训练统一的Transformer。具体来说,作者考虑使用掩蔽自动编码(MAE)方法来训练 Omnivorous 视觉编码器。生成的 OmniMAE 模型从具有相同目标函数的所有模态中学习,并且不需要任何监督。 与监督目标或判别式自监督目标相比,使用掩蔽预训练目标具有几个优点。首先,与监督目标相反,通用无监督损失不需要任何人工标记工作。因此,它对由一组预定义的标签引入的偏置具有鲁棒性。此外,它不需要多头架构来结合来自与每个模态相对应的每个标签空间的监督,这很难维护和扩展新模态。其次,尽管与重建目标相比,判别式自监督方法产生了更好的冻结特征,但它们在模型和数据大小上的规模化并非易事。本文的掩蔽预训练目标简单、训练效率高,并且可以以最小的变化扩展到不同的视觉模态。 本文的工作建立在将 Transformer 扩展到图像的基础上,称为 Vision Transformer (ViT),并通过使用时空patch将其扩展到图像和视频。由于 ViT只能处理一小部分输入,即通常只覆盖图像 10% 和视频 5% 的非掩码输入,因此使用 ViT 的重建损失在计算上是高效的。作者还表明,在小batch中简单地重复样本可以减少数据加载时间,而不会损失最终迁移性能。样本复制对于掩码预训练特别有用,因为即使是复制样本,未掩码的patch在副本之间也是不同的。 本文预训练的 OmniMAE 模型使用相同的模型参数和简单的 ViT 架构在图像和视频识别基准上显示出具有竞争力的性能,甚至优于针对单个模态进行调整和训练的专门架构。在微调本文的单个模型后,作者在六个图像和视频识别基准上获得了强大的性能,包括 ImageNet 上 86.5% 的准确率和Something Something-v2 视频分类任务上的 75.3% 准确率。 03 方法 本文的目标是为图像和视频预训练一个统一的模型。作者没有使用为视觉模态量身定制的专门架构,而是建立在 vanilla Vision Transformer (ViT)架构之上,该架构具有有限的视觉归纳偏置。对于预训练,作者扩展了简单的自监督掩蔽自动编码 (MAE) 方法。原始架构和预训练方法仅在图像上进行测试,作者展示了统一模型的简单设计决策。 3.1 Training OmniMAE jointly on images and videos作者在上图中说明了本文的方法。对于预训练,本文使用编码器-解码器架构,其中编码器仅对输入的“non-masked”子集进行操作。解码器预测整个输入的像素值,即mask和non-masked像素。该模型被训练以最小化输入的被mask部分的重建误差。预训练后,作者通过迁移学习评估编码器(解码器被丢弃)。 Images and videos as spatio-temporal patchesOmnivorous visual encoderPretrainingLoss function and optimizationDataset sample replication3.2 Implementation Details![]() ![]() ![]() ArchitectureTraining detailsMasking the input04 ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() 05 参考资料[2]https://github.com/facebookresearch/omnivore 研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。 ![]() END |
|