由于Transformer强大的建模能力,视觉任务的主流Backbone逐渐从CNN变成了Transformer,其中纯Transformer的结构也在各个视频任务的数据集上也达到了SOTA的性能。这些视频模型都是基于Transformer结构来捕获patch之间全局的时间和空间维度上的关系。 在本文中,作者提出了video Transformer中的局部性假设偏置,这能使Transformer在速度和精度上达到更好的trade-off,这在以前的那些基于捕获时空域上全局关系的Transformer上是做不到的。在本文中,视频结构中的局部性是通过Swin Transformer实现的。 另外,由于视频和图片本身就存在很大的联系,而且本文也在用了Swin Transformer结构,所以作者采用了在图片数据集上预训练好的模型模型来初始化,以提高视频模型的泛化能力。本文提出的方法在广泛的视频识别基准数据集上实现了SOTA的准确性,包括动作识别(action recognition)和时间建模(temporal modeling)。 01 02 2.1 Overall Architecture为了能够严格遵循Swin Transformer的层次结构,作者在时间维度上没有进行降采样,每个stage只在空间维度上进行了2×2的降采样。Patch合并层连接每组2×2个空间相邻patch的特征,并应用一个线性层将连接的特征投影到原来通道尺寸的一半。例如,第二阶段中的线性层将每个通道维度为4C的token映射为2C。 2.2 3D Shifted Window based MSA Module与图像相比,视频需要更多的输入token来表示它们,因为视频另外有一个时间维度。因此,一个全局的自注意模块将不适合视频任务,因为这将导致巨大的计算和内存成本。在这里,作者遵循Swin Transformer的方法,在自注意模块中引入了一个局部感应偏置。 2.2.1 在不重叠的三维窗口上的MSA2.2.2. 3D Shifted Windows03 3.1 Comparison to state-of-the-art3.1.1. Kinetics-4003.1.2. Kinetics-6003.1.3. Something-Something v23.2. Ablation Study3.2.1. Different designs for spatiotemporal attention3.2.2. Temporal dimension of 3D tokens3.2.3. Temporal window size3.2.4. 3D shifted windows3.2.5. Ratio of backbone/head learning rate04 参考文献作者介绍 研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。 知乎/公众号:FightingCV |
|