什么是3D卷积？3D卷积和2D卷积有何区别？

非线性co7vtwr8 2018-09-19

展开全文

1D卷积是对只有一个维度的时间序列提取特征，比如信号、股价、天气、文本等等。普通的2D卷积是提取的单张静态图像的空间特征，同神经网络结合之后在图像的分类、检测等任务上取得了很好的效果。但是对视频，即多帧图像就束手无策了，因为2D卷积没有考虑到图像之间的时间维度上的物体运动信息，即光流场。因此，为了能够对视频进行特征，以便用来分类等任务，就提出了3D卷积，在卷积核中加入时间维度。下图就很好的说明了2D卷积和3D卷积之间的差异。

下面就更加细致的介绍不同维度卷积之间的差别，下图就是tensorflow中不同卷积方式中输入数据的大小以及各个维度所表示的含义。

无论是何种卷积方式，他们都具备卷积操作所带来的优势：

1.共享权重使得需要学习的参数大大减少了；

2.能够很好的提取出数据局部特征，以及随着卷积层数的增加，感受野的扩大，所能提取高级特征和全局的特征。

举个例子来详细说明一下3D卷积神经网络的结构，下图就是一个视频行为识别网络。

可以看到其整个网络架构同2D卷积的AlexNet十分类似。只是将2D操作全都升级为3D操作了。输入数据为连续的7帧灰度图图像；H1层为人为设计的特征提取层，对每一帧提取5个特征，分别是原始的灰度、横向梯度、纵向梯度、横向光流和纵向光流，得到33*60*40大小的特征图。再经过两个3D卷积核的卷积，得到23*2张54*34大小的特征图。紧接着下采样，只对特征的大小进行减半。然后重复上述过程，再接两层全链接层，得到最终的预测结果。