从 RNN, LSTM, GRU 到 SRU

DISTANCE_A 2017-10-23

展开全文

1 引言

RNN（Recurrent Neural Networks）一般翻译为“递归神经网络” 或 “循环神经网络”，这里面涉及到初学编程中经常使用的两个技巧：递归/循环。递归的典型例子就是斐波那契数列：

int Fibonacci(int x)

{

if(x >= 3)

{

return Fibonacci(x - 1) + Fibonacci(x - 2);

}

else

{

return 1;

}

如果需要计算 Fibonacci(n), n > 3 则必须先计算 Finonacci(n-1) 和 Fibonacci(n-2)，依次类推，直到 Fibonacci(1), Fibonacci(2), ..., Fibonacci(n-2), Fibonacci(n-1) 全部计算完成，才能得到 Fibonacci(n)。

利用循环同样可以计算斐波那契数列：

const int L = 30;

int Fib[L] = {1, 1, 0};

for(int i = 2; i < l;="">

{

Fib[i] = Fib[i-1] + Fib[i-2];

}

两种实现是等价的。

2 序列学习

上面的斐波那契数列就是一种序列（Sequence），语音信号也是一种序列，你每天手机上推送的新闻、公众号文章，互联网上的博客、视频，客厅观看的电视，收听的广播、音乐，阅读的书，银行打印的流水账……都是序列。

序列中的元素是存在相关性的，比如你阅读公众号文章，如果只看文章中一两个字，获取信息是极其有限的，只有全部读完才觉得“这篇文章很赞”或“上篇文章很水”。

前馈网络（DNN、CNN）只能接收固定维度的输入，处理序列数据时需要“截断”为若干组，各组在处理时互相独立，这显然不适合分析变长的序列数据，如语音识别时单从某个片段无法区分同一读音的两个词（不行/步行），必须联系语境上下文。RNN 则在网络结构中加入反馈机制，将前一时刻输出重新作为当前时刻输入，这也是 RNN 中 Recurrent 名字来源。RNN 结构如下图所示：

我们可以把 st 看作网络的记忆单元，它可以捕获之前时刻的信息。RNN 是面向序列学习（Sequence Learning）的一款强大工具。

序列学习模型可以干嘛？

语言建模（language modeling）

输入一组单词，利用这些单词预测下一个单词。训练好的语言模型可以产生新文本。基于莎士比亚作品训练的语言模型可以产生类似莎士比亚作品的文本。

机器翻译

输入为某种语言的文本，输出为另一种语言文本。德语到英语的机器翻译系统如下图所示：

语音识别

输入为声波中提取的语音信号，输出一组音节片段以及相应概率密度。

图像描述

RNN 同卷积神经网络结合，可以生成图像描述，输入为一张图片，输出为描述该图片的自然语言描述语句。我们前面文章《利用 TensorFlow 实现“看图说话”》介绍过该类型应用。

思考：能否用 RNN 学习斐波那契数列的规律？

3 RNN 结构改进

训练 RNN 和训练传统神经网络类似，同样使用反向传播算法，但由于网络参数被所有时刻共享，每个时刻输出计算的梯度不仅依赖当前时刻，也依赖之前时刻。例如，为了计算 t=4 时刻梯度，我们应当反向传播 3 次再将梯度累加。这种方法称为沿时间反向传播（BPTT，Backpropagation Through Time）。实际上用 BPTT 训练 RNN 会出现著名的“梯度爆炸/消失”问题。为了解决该问题，RNN 逐步发展了多个变种。其中应用最广泛的当属 LSTM（Long Short Term Memories），结构如下：