深度学习数学基础 | 简单数学

走路先生 2020-03-19

展开全文

从本文开始，之后的三四篇我们都将沐浴在数学的海洋里，拼命地扑腾，这个系列我会尽力以通俗易懂的方式来讲述这些数学知识。

1 函数

1.1 一次函数

在数学函数中最基本、最重要的就是一次函数。也就是函数之基础、根本。它在神经网络的世界里也同样重要。

1.1.1 一元一次函数

这个函数可以用下面的式表示。被称为斜率(用来控制直线的方向)，被称为截距（用来控制直线和原点的偏移）

当x、y两个变量满足上述公式时，就称为变量y和变量x是一次函数关系。

有两个变量x和y，如果对每个x都有唯一确定的y与它对应，则称y是x的函数，用表示。此时，称为自变量，为因变量。

一次函数的图像是直线，如下图的直线所示。

示例：一次函数的图像如下图所示，截距为 1，斜率为 2。

1.1.2 多元一次函数

上面我们说的中有一个变量x，我们称为一元，如果有多个变量，我们就称为是多元的，比如下面的式子。（有几个变量就是几元的，也可以理解为维度）

当多个变量满足上述公式时，也称为变量y与变量是一次函数关系。

就像我们之前说的神经元的加权输入Z 就可以表示为一次函数关系。

如果把作为参数的权重与偏置看作常数，那么加权输入z h和就是一次函数关系。

1.2 二次函数

1.2.1 一元二次函数

刚刚我们接触了一次函数，下面说说二次函数。二次函数很重要，像我们经常使用的代价函数平方误差就是二次函数。二次函数由下面的式表示。

二次函数的图像是抛物线，如下图所示。我们会发现抛物线的凹凸（开口朝向）是通过上方式子中a的正负来决定的。

当0时，抛物线向上开口，向下凸起
当时，抛物线向下开口，向上凸起。

所以当时该函数的存在最小值。（该性质是后面讲的最小二乘法的基础）

示例：二次函数的图像如右图所示。从图像中可以看到，当时，函数取得最小值。

1.2.2 多元二次函数

在我们实际的神经网络中需要处理更多变量的二次函数，这些二次函数统称多元二次函数，学会了一元二次函数，那么多元二次函数就不会太难了，下面我们以一个二元二次函数进行举例。

就像我们使用的代价函数平方误差c就是多元二次函数:

1.3 单位阶跃函数

之前，我们已经接触过它了，还记得吗，作为生物界神经元的激活函数。下面我们再说一遍吧。

单位阶跃函数，在原点处不连续，也就是在原点处不可导，由于这两个性质，所以单位阶跃函数不能成为主要的激活函数。

单位阶跃函数的图像如下：

1.4 指数函数

什么是指数函数呢？我们之前讲了一次函数和二次函数，其实只要把变量放到幂的位置，其实就是指数函数了，具有以下形状的函数称为指数函数，常数a被称为函数的底数。

指数函数的图像是类似于撇的一种样式，如下所示

上面说到底数，就不得不说自然常数,又叫纳皮尔数或欧拉数，它和派π类似，是一个无限不循环小数，它的值如下

1.4.1 sigmoid函数

上面说到自然常数e，那么就不得不提到大名鼎鼎的自然指数函数,它在数学界有自己的标识exp或exp(x)

而我们这里所要讲的是包含自然指数函数的复合函数sigmoid函数，它是神经网络中很具有代表性的激活函数。它的公式如下

通过下方的图像,我们可以看到，这个函数是光滑的，这就代表着这个函数处处可导，函数的取值在(0,1)区间内，那么这个函数值就可以用概率来解释

1.5 正态分布的概率密度函数

在计算机实际确定神经网络时，我们需要首先给权重和偏置设定初始值，这样神经网络才能进行计算。而这个初始值怎么取呢，这个时候我们就会用到一个非常有用的工具，叫做正态分布

这里就不长篇大论的解释啥是正态分布了，它也没什么高大上的地方，就是概率分布中的一种分布方式，但是这个分布方式是及其复合人类和自然界的，有兴趣的朋友可以去深入了解下。在这里只说一下，我们在给神经网络分配权重和偏置时分配一个服从正态分布的随机数，会比较容易取得好的结果。

正态分布是服从下面的概率密度函数的概率分布。公式如下

它的图像如下，由于形状像教堂的钟，所以被称为叫钟形曲线

示例：试作出期望值μ为0、标准差σ为1 的正态分布的概率密度函数的图像。

2 数列

2.1 数列的含义

数列就是数的序列，比如下面就是偶数列的数列：2,4,6,8,…

数列中的每一个数都被称为项，排在第一位的项叫做首项，排在第二位的项叫做第2项,以此类推，排在第n位的项叫做第n项(是不是有点废话)，神经网络中出现的数列都是有限的数列，这种数列叫做有穷数列，在有穷数列中最后一项称为末项,数列中的数量称为项数,而像上面的偶数列是无穷数列

示例：考察下面的有穷数列的首项，末项以及项数1,3,5,7,9

这个数列的首项是1，末项是9，项数是5