搜索

分享

QQ空间 QQ好友新浪微博微信

激活函数小结

数数数据库 2019-06-21

展开全文

什么是激活函数

如下图，在神经元中，输入的 inputs 通过加权，求和后，还被作用了一个函数，这个函数就是激活函数 Activation Function。

激活函数小结

为什么要用

如果不用激励函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。
如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

每个激活函数的输入都是一个数字，然后对其进行某种固定的数学操作。激活函数给神经元引入了非线性因素，如果不用激活函数的话，无论神经网络有多少层，输出都是输入的线性组合。

激活函数的发展经历了Sigmoid -> Tanh -> ReLU -> Leaky ReLU -> Maxout这样的过程，还有一个特殊的激活函数Softmax，因为它只会被用在网络中的最后一层，用来进行最后的分类和归一化。本文简单来梳理这些激活函数是如何一步一步演变而来的。

总结如下：

激活函数小结

Sigmoid

sigmoid非线性函数的数学公式是

激活函数小结

函数图像如下图所示。它输入实数值并将其“挤压”到0到1范围内，适合输出为概率的情况，但是现在已经很少有人在构建神经网络的过程中使用sigmoid。

激活函数小结

存在问题：

Sigmoid函数饱和使梯度消失。当神经元的激活在接近0或1处时会饱和，在这些区域梯度几乎为0，这就会导致梯度消失，几乎就有没有信号通过神经传回上一层。
Sigmoid函数的输出不是零中心的。因为如果输入神经元的数据总是正数，那么关于w的梯度在反向传播的过程中，将会要么全部是正数，要么全部是负数，这将会导致梯度下降权重更新时出现z字型的下降。

Tanh

数学公式：

Tanh非线性函数的数学公式是

激活函数小结

Tanh非线性函数图像如下图所示，它将实数值压缩到[-1,1]之间。

激活函数小结

存在问题：

Tanh解决了Sigmoid的输出是不是零中心的问题，但仍然存在饱和问题。

为了防止饱和，现在主流的做法会在激活函数前多做一步batch normalization，尽可能保证每一层网络的输入具有均值较小的、零中心的分布。

ReLU

数学公式：

激活函数小结

ReLU非线性函数图像如下图所示。相较于sigmoid和tanh函数，ReLU对于随机梯度下降的收敛有巨大的加速作用；sigmoid和tanh在求导时含有指数运算，而ReLU求导几乎不存在任何计算量。

对比sigmoid类函数主要变化是：

1）单侧抑制；

2）相对宽阔的兴奋边界；

3）稀疏激活性。

激活函数小结

存在问题：

ReLU单元比较脆弱并且可能“死掉”，而且是不可逆的，因此导致了数据多样化的丢失。通过合理设置学习率，会降低神经元“死掉”的概率。

Leaky ReLU

数学公式：

函数公式是

激活函数小结

其中 e是很小的负数梯度值，比如0.01，Leaky ReLU非线性函数图像如下图所示。这样做目的是使负轴信息不会全部丢失，解决了ReLU神经元“死掉”的问题。更进一步的方法是PReLU，即把 e当做每个神经元中的一个参数，是可以通过梯度下降求解的。

激活函数小结

Maxout

激活函数小结

Maxout出现在ICML2013上，作者Goodfellow将maxout和dropout结合后，号称在MNIST, CIFAR-10, CIFAR-100, SVHN这4个数据上都取得了start-of-art的识别率。

数学公式：

f i (x)=m ax j ∈[1 ,k] z i j

假设 w 是2维，那么有：

激活函数小结

Maxout是对ReLU和leaky ReLU的一般化归纳，可以注意到，ReLU 和 Leaky ReLU 都是它的一个变形（比如， w 1 ,b 1 =0 的时候，就是 ReLU）.

Maxout的拟合能力是非常强的，它可以拟合任意的的凸函数。作者从数学的角度上也证明了这个结论，即只需2个maxout节点就可以拟合任意的凸函数了（相减），前提是”隐含层”节点的个数可以任意多.

激活函数小结

所以，Maxout 具有 ReLU 的优点（如：计算简单，不会 saturation），同时又没有 ReLU 的一些缺点（如：容易 go die）。不过呢，还是有一些缺点的嘛：就是把参数double了。

Softmax

数学公式：

Softmax用于多分类神经网络输出，目的是让大的更大。函数公式是

激活函数小结

示意图如下。

激活函数小结

Softmax是Sigmoid的扩展，当类别数k＝2时，Softmax回归退化为Logistic回归。

还有其他一些激活函数，请看下表：

激活函数小结

激活函数小结

怎么选择激活函数呢？

如果你使用 ReLU，那么一定要小心设置 learning rate，而且要注意不要让你的网络出现很多 “dead” 神经元，如果这个问题不好解决，那么可以试试 Leaky ReLU、PReLU 或者 Maxout.
还有，通常来说，很少会把各种激活函数串起来在一个网络中使用的。

参考资料：

https://zhuanlan.zhihu.com/p/32610035
https:///entry/5a2a3a786fb9a044fa19c5e9

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：数数数据库 > 《物》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

数数数据库

关注对话

TA的最新馆藏

寒窑赋原文
人上人、人玩人、人与人（太经典了）！丨可读
吃过大苦的人，身上会带有这3种特征，很真实
褚遂良(唐朝政治家)
贵妃洗儿是什么事情
人品差的人，开口闭口都是这些话，记住不要深交

喜欢该文的人也喜欢更多

热门阅读换一换