▊ 写在前面 在本文中,作者提出了用于视频模型自监督预训练的掩蔽特征预测(Masked Feature Prediction,MaskFeat)。本文的方法首先随机掩蔽输入序列的一部分,然后预测掩蔽区域的特征。 ▊ 1. 论文和代码地址 Masked Feature Prediction for Self-Supervised Visual Pre-Training 论文地址:https:///abs/2112.09133 代码地址:未开源 ▊ 2. Motivation 自监督预训练在自然语言处理方面取得了惊人的成功,为具有十亿规模数据的大型Transformer提供了支持。其基本思想是一个非常简单的掩蔽和预测(mask-and-predict)任务,即首先掩蔽文本中的一些token,然后预测给定可见文本的不可见内容。 人类有一种非凡的能力来预测世界是如何出现和移动的。如上图的第一列所示,即使看不到隐藏的内容,我们也能够通过使用相关的可见部分的视觉知识来理解对象结构并绘制想象信息的大致轮廓。 2)mask视觉预测不需要对视觉信号进行离散化,连续特征回归可以很好地工作。 3)来自人类标注的语义知识并不总是有助于MaskFeat。 ▊ 3. 方法 3.1. Masked Feature Prediction本文的方法执行mask视觉预测任务,该任务首先随机mask视频中的几个时空立方体,然后根据剩余的视频预测被mask的时空立方体。通过对mask样本建模,该模型在识别物体的部分和运动上实现了视频理解。 在典型的视频视觉Transformer中,视频首先被划分为时空立方体,然后将多维数据集投影(即卷积)到token序列。为了执行mask,序列中的一些token通过被替换为[MASK] token来随机mask。 3.2. Target Features作者考虑了不同类型的目标特征。目标分为两类: 2) 由预训练的深层网络或教师模型提取的两阶段(two-stage)目标。 Pixel colors最直接的目标可以说是预测视频像素的颜色。具体而言,作者使用RGB值,该值通过数据集的平均值和标准差进行归一化。作者最小化了模型预测和Ground Truth之间RGB值之间的L2距离。 HOG梯度方向直方图(HOG)是描述局部子区域内梯度方向或边缘方向分布的特征描述符。HOG描述符通过简单的梯度滤波(即减去相邻像素)来实现,以计算每个像素处梯度的大小和方向。 Discrete variational autoencoder (dVAE)为了解决视觉信号的连续高维特性,DALL-E提出用dVAE码本压缩图像。特别是,每个patch被编码到一个token中,该token可以使用预先训练的dVAE模型假设为8192个可能值。现在的任务是通过优化交叉熵损失来预测mask token的分类分布。然而,预训练dVAE和tokenize图像会导致额外的计算成本。 Deep features与离散token相比,作者也考虑了直接使用连续深网络特征作为预测目标。作者使用预训练过的模型作为教师生成特征,CNN或ViT,然后损失最小化了余弦距离。对于CNN教师,作者使用最后一层对应于mask token的特性,对于ViT,作者使用相应的输出patch token。 Pseudo-label为了探索更高层次的语义预测目标,作者考虑mask patch的类标签。作者利用Token Labeling提供的标签,其中每个patch都分配了一个特定于位置的IN-1K伪标签。该类标签图由经过预训练的高性能监督深度教师网络生成,并通过交叉熵损失优化mask特征预测。 ▊ 4.实验 上表展示了视频任务上重建不同特征的实验结果,可以看出重建HOG能够达到比较好的性能。 上表展示了ImageNet分类任务上重建不同特征的实验结果,可以看出重建HOG能够达到比较好的性能。 上表展示了Kinetics-400数据集上,本文方法和其他方法的实验结果对比。 上表展示了Kinetics-600和Kinetics-700数据集上,本文方法和其他方法的实验结果对比。 上表展示了AVA v2.2数据集上,本文方法的迁移结果。 上表展示了Something-Something v2数据集上,本文方法的迁移结果。 上表展示了不同mask策略的实验结果,可以看出用cube进行mask的实验结果是最好的。 上表展示了不同mask ratio的实验结果,可以看出mask ratio在40%的时候,实验效果较好。 上表展示了不同大小的模型在不同epoch数的实验结果。 ![]() 上表展示了ImageNet-1K上本文方法和其他方法的对比结果。 上表展示了不同HOG实现下的实验结果。 ![]() 上图展示了预测像素和预测HOG特征的实验结果。 上表展示了多任务下的实验结果,可以看出同时mask像素和HOG特征对实验结果并没有提升。 ▊ 5. 总结 在本文中,作者将图像的mask modeling分成了两类,一种是one stage的,比如直接通过重建像素值,另一种是two stage的,比如重建通过DALL-E获得的离散code。 ▊ 作者简介 知乎/公众号:FightingCV ![]() END |
|