1D卷积是对只有一个维度的时间序列提取特征,比如信号、股价、天气、文本等等。普通的2D卷积是提取的单张静态图像的空间特征,同神经网络结合之后在图像的分类、检测等任务上取得了很好的效果。但是对视频,即多帧图像就束手无策了,因为2D卷积没有考虑到图像之间的时间维度上的物体运动信息,即光流场。因此,为了能够对视频进行特征,以便用来分类等任务,就提出了3D卷积,在卷积核中加入时间维度。下图就很好的说明了2D卷积和3D卷积之间的差异。 下面就更加细致的介绍不同维度卷积之间的差别,下图就是tensorflow中不同卷积方式中输入数据的大小以及各个维度所表示的含义。 无论是何种卷积方式,他们都具备卷积操作所带来的优势: 1.共享权重使得需要学习的参数大大减少了; 2.能够很好的提取出数据局部特征,以及随着卷积层数的增加,感受野的扩大,所能提取高级特征和全局的特征。 举个例子来详细说明一下3D卷积神经网络的结构,下图就是一个视频行为识别网络。 可以看到其整个网络架构同2D卷积的AlexNet十分类似。只是将2D操作全都升级为3D操作了。输入数据为连续的7帧灰度图图像;H1层为人为设计的特征提取层,对每一帧提取5个特征,分别是原始的灰度、横向梯度、纵向梯度、横向光流和纵向光流,得到33*60*40大小的特征图。再经过两个3D卷积核的卷积,得到23*2张54*34大小的特征图。紧接着下采样,只对特征的大小进行减半。然后重复上述过程,再接两层全链接层,得到最终的预测结果。 |
|
来自: 非线性co7vtwr8 > 《人工智能》