从原理到代码，轻松深入逻辑回归模型！

昵称42427018 2019-08-13

展开全文

【导语】学习逻辑回归模型，今天的内容轻松带你从0到100！阿里巴巴达摩院算法专家、阿里巴巴技术发展专家、阿里巴巴数据架构师联合撰写，从技术原理、算法和工程实践3个维度系统展开，既适合零基础读者快速入门，又适合有基础读者理解其核心技术；写作方式上避开了艰涩的数学公式及其推导，深入浅出。

0、前言

简单理解逻辑回归，就是在线性回归基础上加一个 Sigmoid 函数对线性回归的结果进行压缩，令其最终预测值 y 在一个范围内。这里 Sigmoid 函数的作用就是将一个连续的数值压缩到一定范围内，它将最终预测值 y 的范围压缩到在 0 到 1 之间。虽然逻辑回归也有回归这个词，但由于这里的自变量和因变量呈现的是非线性关系，因此严格意义上讲逻辑回归模型属于非线性模型。逻辑回归模型通常用来处理二分类问题，如图 4-4 所示。在逻辑回归中，计算出的预测值是一个 0 到 1 的概率值，通常的，我们以 0.5 为分界线，如果预测的概率值大于 0.5 则会将最终结果归为 1 这个类别，如果预测的概率值小于等于 0.5 则会将最终结果归为 0 这个类别。而 1 和 0 在实际项目中可能代表了很多含义，比如 1 代表恶性肿瘤，0 代表良性肿瘤，1 代表银行可以给小王贷款，0 代表银行不能给小王贷款等等。

图4-4 逻辑回归分类示意图

虽然逻辑回归很简单，但它被广泛应用在实际生产之中，而且通过改造逻辑回归也可以处理多分类问题。逻辑回归不仅本身非常受欢迎，它同样也是我们将在第 5 章介绍的神经网络的基础。普通神经网络中，常常使用 Sigmoid 对神经元进行激活。关于神经网络的神经元，第 5 章会有详细的介绍（第 5 章会再次提到 Sigmoid 函数），这里只是先提一下逻辑回归和神经网络的关系，读者有个印象。

1、Sigmoid 函数

Sigmoid 的函数表达式如下：

该公式中，e 约等于 2.718，z 则是线性回归的方程式，p 为计算出来的概率，范围在 0 到 1 之间。接下来我们将这个函数绘制出来，看看它的形状。使用 Python 的 Numpy 以及 Matplotlib 库进行编写，代码如下：

import numpy as npimport matplotlib.pyplot as plt

def sigmoid(x): y = 1.0 / (1.0 np.exp(-x)) return y

plot_x = np.linspace(-10, 10, 100)plot_y = sigmoid(plot_x)plt.plot(plot_x, plot_y)plt.show()

效果如图 4-5 所示：

图4-5 Sigmoid函数

我们对上图做一个解释，当 x 为 0 的时候，Sigmoid 函数值为 0.5，随着 x 的不断增大，对应的 Sigmoid 值将无线逼近于 1；而随着 x 的不断的减小，Sigmoid 值将不断逼近于 0 。所以它的值域是在 (0,1) 之间。由于 Sigmoid 函数将实数范围内的数值压缩到（0,1）之间，因此也被称为压缩函数。但这里多提一下，压缩函数其实可以有很多，比如 tanh 可以将实数范围内的数值压缩到（-1,1）之间，因此 tanh 有时也会被成为压缩函数。

2、梯度下降法

在学习 4.1.1 小节的时候，我们在介绍一元线性回归模型的数学表达之后又介绍了一元线性回归模型的训练过程。类似的，在 4.2.1 小节学习完逻辑回归模型的数学表达之后我们来学习逻辑回归模型的训练方法。首先与 4.1.1 小节类似，我们首先需要确定逻辑回归模型的评价方式，也就是模型的优化目标。有了这个目标，我们才能更好地“教”模型学习出我们想要的东西。这里的目标也和 4.1.1 一样，定义为

接下来是选择优化这个目标的方法，也就是本小节中重点要介绍的梯度下降法。

首先带大家简单认识一下梯度下降法。梯度下降算法（Gradient Descent Optimization）是常用的最优化方法之一。“最优化方法”属于运筹学方法，它指在某些约束条件下，为某些变量选取哪些的值，使得设定的目标函数达到最优的问题。最优化方法有很多，常见的有梯度下降法、牛顿法、共轭梯度法等等。由于本书重点在于带大家快速掌握“图像识别”技能，因此暂时不对最优化方法进行展开，感兴趣的读者可以自行查阅相关资料进行学习。由于梯度下降是一种比较常见的最优化方法，而且在后续第 5 章、第 7 章的神经网络中我们也将用到梯度下降来进行优化，因此我们将在本章详细介绍该方法。

接下来我们以图形化的方式带领读者学习梯度下降法。

我们在 Pycharm 新建一个 python 文件，然后键入以下代码：

import numpy as npimport matplotlib.pyplot as pltif __name__ == '__main__':    plot_x = np.linspace(-1, 6, 141) #从-1到6选取141个点    plot_y = (plot_x - 2.5) ** 2 – 1 #二次方程的损失函数    plt.scatter(plot_x[5], plot_y[5], color='r') #设置起始点，颜色为红色    plt.plot(plot_x, plot_y)    # 设置坐标轴名称    plt.xlabel('theta', fontproperties='simHei', fontsize=15)    plt.ylabel('损失函数', fontproperties='simHei', fontsize=15)    plt.show()

通过上述代码，我们就能画出如图 4-6 所示的损失函数示意图，其中 x 轴代表的是我们待学习的参数（theta），y 轴代表的是损失函数的值（即 loss 值），曲线 y 代表的是损失函数。我们的目标是希望通过大量的数据去训练和调整参数，使损失函数的值最小。想要达到二次方程的最小值点，可以通过求导数的方式，使得导数为 0 即可。也就是说，横轴上 2.5 的位置对应损失最小，在该点上一元二次方程切线的斜率则为 0。暂且将导数描述为，其中 J 为损失函数，为待求解的参数。

梯度下降中有个比较重要的参数：学习率（读作eta，有时也称其为步长），它控制着模型寻找最优解的速度。加入学习率后的数学表达为。

图4-6 损失函数示意图

接下来我们画图模拟梯度下降的过程。

1. 首先定义损失函数及其导数

def J(theta): #损失函数 return (theta-2.5)**2 -1

def dJ(theta): #损失函数的导数 return 2 * (theta - 2.5)

2. 通过 Matplotlib 绘制梯度下降迭代过程，具体代码如下：

theta = 0.0 #初始点theta_history = [theta]eta = 0.1 #步长epsilon = 1e-8 #精度问题或者eta的设置无法使得导数为0while True:    gradient = dJ(theta) #求导数    last_theta = theta #先记录下上一个theta的值    theta = theta - eta * gradient #得到一个新的theta    theta_history.append(theta)    if(abs(J(theta) - J(last_theta)) < epsilon):       break #当两个theta值非常接近的时候，终止循环plt.plot(plot_x,J(plot_x),color='r')plt.plot(np.array(theta_history),J(np.array(theta_history)),color='b',marker='x')plt.show()      #一开始的时候导数比较大，因为斜率比较陡，后面慢慢平缓了print(len(theta_history)) #一共走了46步

我们来看下所绘制的图像是什么样子的，可以观察到从初始值 0.0 开始不断的向下前进，一开始的幅度比较大，之后慢慢趋于缓和，逐渐接近导数为 0，一共走了 46 步。如图 4-7 所示：

图4-7 一元二次损失函数梯度下降过程示意图

3、学习率的分析

上一小节我们主要介绍了什么是梯度下降法，本小节主要介绍学习率对于梯度下降法的影响。

第一个例子，我们将设置为 0.01（之前是 0.1 ），我们会观察到，步长减少之后，蓝色的标记更密集，说明步长减少之后，从起始点到导数为 0 的步数增加了。步数变为了 424 步，这样整个学习的速度就变慢了。效果如图 4-8 所示：

图4-8 学习率时，一元二次损失函数梯度下降过程示意图

第二个例子，我们将设置为 0.8，我们会观察到，代表蓝色的步长在损失函数之间跳跃了，但在跳跃过程中，损失函数的值依然在不断的变小。步数是 22 步，因此当学习率为 0.8 时，优化过程时间缩短，但是最终也找到了最优解。效果如图 4-9 所示：

图4-9 学习率时，一元二次损失函数梯度下降过程示意图

第三个例子，我们将设置为1.1，看一下效果。这里注意，学习率本身是一个 0 到 1 的概率，因此 1.1 是一个错误的值，但为了展示梯度过大会出现的情况，我们暂且用这个值来画图示意。我们会发现程序会报这个错误 OverflowError: ( 34, 'Result too large' )。我们可以想象得到，这个步长跳跃的方向导致了损失函数的值越来越大，所以才报了“Result too large”效果，我们需要修改下求损失函数的程序：

def J(theta): try: return (theta-2.5)**2 -1 except: return float('inf')

i_iter= 0    n_iters = 10    while i_iter < n_iters:        gradient = dJ(theta)        last_theta = theta        theta = theta - eta * gradient        i_iter  = 1        theta_history.append(theta)        if (abs(J(theta) - J(last_theta)) < epsilon):            break # 当两个theta值非常接近的时候，终止循环

另外我们需要增加一下循环的次数。

我们可以很明显的看到，我们损失函数在最下面，学习到的损失函数的值在不断的增大，也就是说模型不会找到最优解。如图 4-10 所示：

图4-10 学习率时，一元二次损失函数不收敛

通过本小节的几个例子，简单讲解了梯度下降法，以及步长的作用。从三个实验我们可以看出，学习率是一个需要认真调整的参数，过小会导致收敛过慢，而过大可能导致模型不收敛。

4、逻辑回归的损失函数

逻辑回归中的 Sigmoid 函数用来使值域在（0，1）之间，结合之前所讲的线性回归，我们所得到的完整的公式其实是：,其中的就是之前所介绍的多元线性回归。

现在的问题就比较简单明了了，对于给定的样本数据集 X，y，我们如何找到参数 theta ，来获得样本数据集 X 所对应分类输出 y（通过p的概率值）

需要求解上述这个问题，我们就需要先了解下逻辑回归中的损失函数，假设我们的预测值为：

损失函数假设为下面两种情况，y 表示真值；表示为预测值：

结合上述两个假设，我们来分析下，当 y 真值为 1 的时候，p 的概率值越小（越接近0），说明y的预测值偏向于0，损失函数 cost 就应该越大；当 y 真值为 0 的时候，如果这个时候 p 的概率值越大则同理得到损失函数 cost 也应该越大。在数学上我们想使用一个函数来表示这种现象，可以使用如下这个：

我们对上面这个函数做一定的解释，为了更直观的观察上述两个函数，我们通过 Python 中的 Numpy 以及 Matplotlib 库进行绘制。

我们先绘制下，代码如下：

import numpy as npimport matplotlib.pyplot as plt

def logp(x): y = -np.log(x) return y

plot_x = np.linspace(0.001, 1, 50) #取0.001避免除数为0

plot_y = logp(plot_x)plt.plot(plot_x, plot_y)plt.show()

如下图4-9所示：

图4-9 损失函数if y=1

当p=0的时候，损失函数的值趋近于正无穷，根据说明y的预测值偏向于0，但实际上我们的 y 真值为 1 。当 p 达到 1 的时候，y 的真值和预测值相同，我们能够从图中观察到损失函数的值趋近于 0 代表没有任何损失。

我们再来绘制一下，代码如下：

import numpy as npimort matplotlib.pyplot as plt def logp2(x):    y = -np.log(1-x)    return y
plot_x = np.linspace(0, 0.99, 50) #取0.99避免除数为0plot_y = logp2(plot_x)plt.plot(plot_x, plot_y)plt.show()

效果如图4-10所示：

图4-10 损失函数 if y=0

当p=1的时候，损失函数的值趋近于正无穷，根据说明y的预测值偏向于 1，但实际上我们的 y 真值为 0 。当 p 达到 0 的时候，y 的真值和预测值相同，我们能够从图中观察到损失函数的值趋近于 0 代表没有任何损失。

我们再对这两个函数稍微整理下，使之合成一个损失函数：

对这个函数稍微解释下，当 y=1 的时候，后面的式子就变为了 0 ，所以整个公式成为了；当 y=0 的时候前面的式子变为了 0，整个公式就变为了。

最后就变为了，对m个样本，求一组值使得损失函数最小。

公式如下：

(其中 = sigmoi；其中代表了；恒等于1；为列向量)。

当公式变为上述的时候，对于我们来说，只需要求解一组使得损失函数最小就可以了，那么对于如此复杂的损失函数，我们一般使用的是梯度下降法进行求解。

5、Python实现逻辑回归

结合之前讲的理论，本小节开始动手实现一个逻辑回归算法。首先我们定义一个类，名字为 LogisticRegressionSelf ，其中初始化一些变量：维度、截距、theta 值，代码如下：

class LogisticRegressionSelf:

def __init__(self): '''初始化Logistic regression模型''' self.coef_ = None #维度 self.intercept_ = None #截距 self._theta = None

接着我们实现下在损失函数中的这个函数，我们之前在

Sigmoid 函数那个小节已经实现过了，对于这个函数我们输入的值为多元线性回归中的（其中恒等于1），为了增加执行效率，我们建议使用向量化来处理，而尽量避免使用 for 循环，所以对于我们使用来代替，具体代码如下：

    def _sigmoid(x):        y = 1.0 / (1.0   np.exp(-x))        return y

接着我们来实现损失函数，

代码如下：

#计算损失函数 def J(theta,X_b,y): p_predcit = self._sigmoid(X_b.dot(theta)) try: return -np.sum(y*np.log(p_predcit) (1-y)*np.log(1-p_predcit)) / len(y) except: return float('inf')

然后我们需要实现下损失函数的导数。具体求导过程读者可以自行百度，我们这边直接给出结论，对于损失函数cost，得到的导数值为： ,其中，之前提过考虑计算性能尽量避免使用 for 循环实现累加，所以我们使用向量化计算。

完整代码如下：

import numpy as np

class LogisticRegressionSelf:
    def __init__(self):        '''初始化Logistic regression模型'''        self.coef_ = None #维度        self.intercept_ = None #截距        self._theta = None
    #sigmoid函数，私有化函数    def _sigmoid(self,x):        y = 1.0 / (1.0   np.exp(-x))        return y
    def fit(self,X_train,y_train,eta=0.01,n_iters=1e4):        assert X_train.shape[0] == y_train.shape[0], '训练数据集的长度需要和标签长度保持一致'
        #计算损失函数        def J(theta,X_b,y):            p_predcit = self._sigmoid(X_b.dot(theta))            try:                return -np.sum(y*np.log(p_predcit)   (1-y)*np.log(1-p_predcit)) / len(y)            except:                return float('inf')
        #求sigmoid梯度的导数        def dJ(theta,X_b,y):            x = self._sigmoid(X_b.dot(theta))            return X_b.T.dot(x-y)/len(X_b)
        #模拟梯度下降        def gradient_descent(X_b,y,initial_theta,eta,n_iters=1e4,epsilon=1e-8):            theta = initial_theta            i_iter = 0            while i_iter < n_iters:                gradient = dJ(theta,X_b,y)                last_theta = theta                theta = theta - eta * gradient                i_iter  = 1                if (abs(J(theta,X_b,y) - J(last_theta,X_b,y)) < epsilon):                    break            return theta
        X_b = np.hstack([np.ones((len(X_train),1)),X_train])        initial_theta = np.zeros(X_b.shape[1]) #列向量        self._theta = gradient_descent(X_b,y_train,initial_theta,eta,n_iters)        self.intercept_ = self._theta[0] #截距        self.coef_ = self._theta[1:] #维度        return self
    def predict_proba(self,X_predict):        X_b = np.hstack([np.ones((len(X_predict), 1)), X_predict])        return self._sigmoid(X_b.dot(self._theta))
    def predict(self,X_predict):        proba = self.predict_proba(X_predict)        return np.array(proba > 0.5,dtype='int')

小结

以上内容主要讲述了线性回归模型和逻辑回归模型，并做了相应的实现。其中线性回归是逻辑回归的基础，而逻辑回归经常被当做神经网络的神经元，因此逻辑回归又是神经网络的基础。我们借逻辑回归模型介绍了机器学习中离不开的最优化方法，以及最常见的最优化方法——梯度下降。了解本节内容会对接下来第 5 章神经网络的学习有着很大的帮助。