干货 | 教你如何用神经网络算法让计算机把你的照片变梵高画风

oskycar 2016-05-20

展开全文

干货 | 教你如何用神经网络算法让计算机把你的照片变梵高画风

作者：Megvii旷视科技实习研究员 Milk

今天给大家介绍一项有趣的研究，Leon A. Gatys团队做的让神经网络学画画的工作(http:///abs/1508.06576)

干货 | 教你如何用神经网络算法让计算机把你的照片变梵高画风

nnet的杰作

什么是神经网络

神经网络(Neural network)在机器学习领域中，结构模仿生物的神经网络，通过调整网络中的参数来达到近似拟合高维复杂数据。

干货 | 教你如何用神经网络算法让计算机把你的照片变梵高画风

比如最简单的线性划分，判断Wx+b是否大于0，就是单层的LogisticRegression。可以想象，在网络的层数不断增加，非线性成分越来越多时，对于高维空间的划分就越复(xi)杂(qi)精(gu)细(guai)。

神经网络学习的核心就是通过调整网络中的参数来达到一个较优的目标函数。目标函数cost可以是很多东西，比如预测和标注的互信息，或者简单的预测准确率、预测偏离的方差。注意这里是较优，因为神经网络太复杂了，参数空间也是很高维的，无法确定你找到的是不是一个最优，所以只能退而求其次，找到一些较优解。

之前在神经网络上的工作主要是受两方面的限制：

第一，计算速度；

第二，编程难度。

计算速度不用说，现在业界大量使用GPU（NVIDIA的出货量都涨了20%），就充分说明了CPU不实用。编程难度主要是体现在神经网络的训练过程中，需要用到目标优化函数关于网络参数的导数，在现有的Caffe,Torch,Theano等工具包出现之前，所有这些运算都是需要人手！写！

干货 | 教你如何用神经网络算法让计算机把你的照片变梵高画风

比如前人为了方便手写，就提出了什么back propagation，利用上一层的导数来计算下一层。

神经网络工程实现的关注点

神经网络在工程上实现起来，有很多细节决定了神经网络的成败，个人觉得最重要的是三个点：

1目标函数（cost）：设定好目标函数就是找准优化目标，知道什么结果是我们想要的；

2网络结构设计：设计好神经网络的结构，就使得其对于给定的问题具有结构上的先验优势（比如在图像处理中使用CNN而不使用full connected）；

3初始参数设置：设置好初始参数，防止在学习初期就掉到坑里去了。当然，还有好好的洗数据。

比如现在讨论的Art style问题，核心就是定义什么是“像”。那么就需要找到一个描述两个图片像不像的函数，或者说定义一个“距离”，使得这个函数越小，两张图片的风格就越像。Gatys团队的核心工作就是找到了一个比较好的描述“像不像”的这样一个函数or统计量。

Art style 问题的核心算法

如何描述两张图像不像，最暴力的办法就是直接算矩阵距离。再进一步，可以有一个思路是找出两张图的feature，然后比较feature之间的距离。art style的核心问题有两个：两个图像在内容上像不像、两个图像在风格上像不像。需要注意的是，我们找到的描述风格的量一定要是scale free的，否则不同大小的图之间就无法比较了。

Gatys团队利用了一个前人训练好的网络，VGG网络，来获取图像的feature。VGG模型在ImageNet数据库中训练而成，我们关注的是它结构中的5个卷积层。因为它是一个训练好的而且每层的feature都是有较好性质的网络，所以直接提取它对图像进行识别时的中间层为图像的feature即可。

在VGG图像识别的中间层，数据为一个(c, h, w)的3维张量，对应c个feature，每个feature为一张(h, w)的二维数组，由于卷积神经网络的结构特性，feature中每个元素对局部的图像都有描述作用。Gatys团队就利用了这一点，使得对于图像feature的表征有了现成的工具。

干货 | 教你如何用神经网络算法让计算机把你的照片变梵高画风