卷积层（2）

高教帮 2019-03-07

展开全文

卷积层（2）

这一回我们来看看卷积层的解法。我们将采用两种方法求解：

一种是实力派解法
一种是软件库中常用的套路——“整容”后的偶像派解法。

这里需要一个小例子，我们假定一个1*5*5的输入，卷积层的维度是1*1*3*3，同时stride=1,padding=0。最终的输出是1*3*3。

这里先画个详细的图，图像中对其中的变量做了定义：

其中：

X表示输入的矩阵，我们用一维的0-24表示下标。

K表示卷积核的矩阵，我们用一维的0-8表示下标。

Z表示卷积的结果，我们用一维的0-8表示下标。

由于前面我们提到操作中stride=1,padding=0，所以我们可以给出简单版和复杂版的输出维度计算公式：

首先是简单版：

然后是复杂版：

很显然，当stride=1,padding=0时，两个公式是等价的。

实力派解法

所谓的实力派解法就是用卷积定义（这里就用相关操作）去做前向计算，然后利用前向的算法去求反向。

接下来这张图上详细介绍了输出的每一个数值是利用哪一部分的信息计算出来的：

上面这张图上详细地讲述了每一个像素的前向计算公式，同时在计算的过程中，我们将每一个输出结果对应的输入和kernel的信息作了标记。实际上这和上一回我们说的算法是一样的。

刚才我们看了前向传播，下面我们看看反向传播的计算。反向传播中的偏置项bias这里就不说了，和全连接的反向算法一样，相对简单些。另外我们需要计算两个数值：

给下一层传导的loss
本层卷积核参数的导数。

首先是下一层参数的loss，也可以理解为Loss对输入数据的梯度。从卷积的过程中直接观察是比较困难的，我们需要讲观看的视角做一下转换。想要求出每个输入的导数，就需要列出每个输入元素参与的计算，这样我们用前面得到的Loss和与这个元素相乘的参数进行相乘再相加就可以得到想要的结果了。这个思路和全连接求导的思路是一致的，只是变换的过程需要费点脑筋：

为了更加清晰地展示算法，我画了下面这张图：

从这张图可以清楚地看出输入数据和输出loss的关系。右边的图主体上是由5*5的小图组成，每一个小图就相当于输入所在位置的数据参与卷积计算的过程。可以看出，每个输入数据在卷积过程的参与度是不同的。对于我们这个问题，最终的输出是9个数字，每个数字由大小为9的卷积计算得到，也就是说我们一共进行了81次乘加操作，我们用矩阵的形式把这个参与次数再写出来：

1 2 3 2 1

2 4 6 4 2

3 6 9 6 3

2 4 6 4 2

1 2 3 2 1

相加后发现确实是81。数字的数量是相符的。

然后我们还可以从延展的虚线中看出，如果将上面小图中的两部分标出的位置进行乘加操作后就可以得出输入所在点的梯度了，而且另外一个发现就是——把所有输入点的计算组合起来，是输出数据的梯度和卷积参数核的卷积操作，但是其中有2处不同：

卷积核需要旋转180度
输出数据的梯度所在的矩阵需要在周围做padding，padding的数量等于卷积核的维度减1

所以这一步的求解最终可以转化成这个伪代码：

residual_x=conv2(padding(residual_z,kernel.shape()-1), rot180(kernel))

通过比较复杂的分析，我们最终得到了一个十分简洁的计算方法。

看完了给下一层传导的loss，下面是本层的参数导数。和之前类似，我们需要重新整理运算关系。同样地，我们再来一张图进行解释：

从这张图又可以很清楚地看出这个关系。这一次我们直接把输入数据和输出数据的残差做卷积，就可以得到参数w的导数。比上面的计算还要简单点。这里的求解也只需要一步就可以：

residual_w=conv2(x,residual_z)

实际上到此为止，卷积层的实力解法就到此结束了，实际上它与全连接层最大的不同就是线性部分，关于非线性部分的事情我们后面再说，但是由于线性部分和非线性部分相互独立，因此分来分析也是完全没有问题的。

所以从上面的分析中可以看出，想要采用实力派的解法需要能够清晰地画出下面三张图：

前向图：标有卷积核id->的输入小图->组成的输出大图
下层Loss：标有卷积核id->的输出小图->组成的输入大图
本层w导数：标有输入id->的输出小图->组成的卷积核大图

刚才看到的是stride=1,padding=0的解法，相对来说省略了一些细节的考虑。如果把这些加上，这种方法也是可以解的，只不过比刚才要复杂一些。这里就不做更进一步的推导了，有志成为“实力派”的童鞋可以去尝试一下进一步地推导。但不管做怎么样的变换，都离不开上面三张图的推导。熟练推导三张图能够让我们更加深刻地理解卷积（相关）操作内部的过程，是绝对有好处的。