实战卷积神经网络

timtxu 2017-04-14

展开全文

在近些年，深度学习领域的卷积神经网络（CNNs或ConvNets)在各行各业为我们解决了大量的实际问题。但是对于大多数人来说，CNN仿佛戴上了神秘的面纱。

CNN是深度学习算法在图像处理领域的一个应用。主要被用来找寻图片中的模式。这个过程主要有两个步骤，首先要对图片做卷积，然后找寻模式。在神经网络中，前几层是用来寻找边界和角，随着层数的增加，我们就能识别更加复杂的特征。这个性质让CNN非常擅长识别图片中的物体。

学习CNN之前，我们需要对CNN和Deep Learning有一个简单的了解。
Deep Learning强大的地方就是可以利用网络中间某一层的输出当做是数据的另一种表达，从而可以将其认为是经过网络学习到的特征。基于该特征，可以进行进一步的相似度比较等。Deep Learning算法能够有效的关键其实是大规模的数据，这一点原因在于每个DL都有众多的参数，少量数据无法将参数训练充分。

简要介绍下神经网络，神经网络的每个单元如下：

对应的公式：

该单元也可以被称作是Logistic回归模型。当将多个单元组合起来并具有分层结构时，就形成了神经网络模型。其对于的结构图如下：

其对应的公式如下：

神经网络的训练方法也同Logistic类似，不过由于其多层性，还需要利用链式求导法则对隐含层的节点进行求导，即梯度下降+链式求导法则，专业名称为反向传播。
CNN是一种特殊的神经网络，它包含卷积层、池化层和激活层。

卷积层要想了解什么是卷积神经网络，你首先要知道卷积是怎么工作的。想象你有一个5*5矩阵表示的图片，然后你用一个3*3的矩阵在图片中滑动。每当3*3矩阵经过的点就用原矩阵中被覆盖的矩阵和这个矩阵相乘。这样一来，我们可以使用一个值来表示当前窗口中的所有点。下面是一个过程的动图：

播放GIF

正如你所见的那样，特征矩阵中的每一个项都和原图中的一个区域相关。
在图中像窗口一样移动的叫做核。核一般都是方阵，对于小图片来说，一般选用3*3的矩阵就可以了。每次窗口移动的距离叫做步长。值得注意的是，一些图片在边界会被填充零，如果直接进行卷积运算的话会导致边界处的数据变小（当然图片中间的数据更重要）。
卷积层的主要目的是滤波。当我们在图片上操作时，我们可以很容易得检查出那部分的模式，这是由于我们使用了滤波，我们用权重向量乘以卷积之后的输出。当训练一张图片时，这些权重会不断改变，而且当遇到之前见过的模式时，相应的权值会提高。来自各种滤波器的高权重的组合让网络预测图像的内容的能力。这就是为什么在CNN架构图中，卷积步骤由一个框而不是一个矩形表示; 第三维代表滤波器。