从概率论的角度来看为什么选择Sigmoid

taotao_2016 2020-06-13

展开全文

这篇文章旨在从概率角度给出广泛而直观的理由，说明为什么选择逻辑Sigmoid函数用于线性分类模型（称为逻辑回归）。

从概率论的角度来看为什么选择Sigmoid

> Flying over Lake Tahoe, Spring 2018, picture taken by me with DJI Mavic Air

如果您之前参加过任何机器学习课程，那么您一定在某些时候遇到过逻辑回归。有这个Sigmoid函数将线性预测变量链接到最终预测变量。根据路线的不同，可以从空气中抽出此S型函数，并将其作为将数字线映射到所需范围[0，1]的函数。有无数种函数可以执行此映射，为什么选择此函数呢？需要重点关注的一个关键点是，乙状结肠的输出被解释为概率。显然，0到1之间的任何数字都不能解释为概率。解释必须来自模型公式及其附带的一组假设。

如果您不想阅读全文，可以在这里观看视频版本：

这个'为什么会有Sigmoid'的问题困扰了我很长时间。在线上的许多答案都不是重点。我发现的答案最常见的是提到关键字' logit'和' logodds'，并且将Sigmoid转换为它的反函数，这不仅没有解释为什么我们选择log ods作为线性预测变量的目标，它也没有提及这种选择的含义。更好的模型提到了'广义线性模型'，但是它们与介绍性类具有相同的弱点，其中提到了概念，但真正的'原因'的内在联系并不存在。真正的答案应该可以帮助您到达无需重新了解该算法就可以从头开始设计此算法的地步。当您面对仅具有基本概率和统计知识的二元分类问题时，您应该能够想到'好吧，解决此问题的最合乎逻辑的方法之一就是遵循这种精确的模型设计'。

在本文中，我将尽力以易于阅读的方式安排逻辑流程，因此很明显，对于某些重要的假设，乙状结肠是概率二进制分类的自然设计选择。像故事一样讲，逻辑不一定是很好的线性关系，有些观点可能看起来是平行的，但它们都有助于逻辑模型的设计动机。因此，如果您关心这个主题，请坐下来和我一起待一会儿。这将是一篇很长的文章，其信息量可与机器学习书中的整个章节相提并论。

预先准备一些关键字和主题：

· 线性回归的概率解释，最大似然估计

· 高斯判别分析

· 逻辑回归的潜在变量表述

· 从替代方案中获得见解：概率模型

· 指数族，广义线性模型和规范链接函数

1.线性回归的概率解释，最大似然估计

之所以在这里提到线性回归，是为了了解我们如何将其视为数据的概率模型，以及是否可以将相似的思想应用于分类。

我们假设目标变量y和输入x通过以下方式关联（上标i是数据点的索引）

从概率论的角度来看为什么选择Sigmoid

其中epsilon是一个误差项，可以捕获未建模的效果或随机噪声。我们假设噪声来自不同的来源并且不相关，因此应基于中心极限定理为高斯噪声。我们可以写出分布并将误差表示为目标与线性预测变量之间的差，

从概率论的角度来看为什么选择Sigmoid

我们称此为给定x（由θ参数化）的y分布。我们并不是以θ为条件，因为它不是随机变量，而是要学习的参数。接下来，我们将可能性定义为

从概率论的角度来看为什么选择Sigmoid

可能性是θ的函数。当将y和X视为具有固定θ的函数时，它只是概率密度函数。但是，当将其视为θ的函数时，则意味着通过改变θ，我们可以使分布'拟合'到观察到的数据。找到最佳拟合的过程称为最大似然估计（MLE）。换句话说，MLE是在假设分布类型（在这种情况下为高斯）和参数（在这种情况下为θ）的前提下，寻找最大程度地观察数据的分布的尝试，请注意，我们只关心平均值，而不是方差/协方差矩阵）。由于我们假设独立的观察结果，因此我们将其作为以下各个数据点的产品进一步写出，

从概率论的角度来看为什么选择Sigmoid

由于对数变换是单调的，因此我们使用下面的对数似然来优化MLE。

从概率论的角度来看为什么选择Sigmoid

为了找到描述生成我们的数据的真实基础模型的最佳高斯模型，换句话说，就是最佳θ，我们需要找到使对数似然最大的峰。最大化上面的表达式等同于最小化下面的术语，

从概率论的角度来看为什么选择Sigmoid

现在我们看到了魔术：这就是最小二乘！

简而言之，为什么线性回归使用最小二乘法拟合数据？因为它会尝试以线性预测变量和高斯噪声项的形式找到最佳模型，从而最大程度地从中提取数据。

线性回归的概率表述不仅是我们稍后进行逻辑回归表述的一个启发性示例，而且还显示了模型设计的正确理由是什么样的。我们将具有高斯噪声的线性预测变量映射到目标变量。对于二进制分类，如果我们可以做类似的事情，那就很好，例如，将线性预测变量与某些事物映射到处于两个类别之一（后验p（y = 1 | x））中的概率，并使用MLE 说这是最大化模型设计的合理性，因为它最大程度地从参数化分布中提取了观察到的数据。我将在第3部分中演示如何做到这一点，但是接下来，让我们看一个激励性的例子。

2.激励示例：高斯判别分析

让我们考虑一维数据的二进制分类任务，在此我们已经知道两类的潜在生成分布：方差1相同且均值3和5不同的高斯。两个高斯都有50k数据点，即先验相等，p（C0） = 0.5 = p（C1）。（Ck代表y的类别）

从概率论的角度来看为什么选择Sigmoid

由于我们在数据中只有1维，因此我们最好的办法是在垂直边界处绘制一个尽可能将两个类分开的垂直边界。从视觉上看，边界应该在4附近。使用生成方法，我们知道类条件p（X | Ck）（两个高斯）和先验p（Ck），我们可以使用贝叶斯规则来获得后

从概率论的角度来看为什么选择Sigmoid

结果如下图所示

从概率论的角度来看为什么选择Sigmoid

我们可以清楚地看到后验的边界，即我们算法的最终概率预测。红色区域分类为0类，蓝色区域分类为1类。这种方法是一种生成模型，称为高斯判别分析（GDA）。它为连续特征建模。您可能听说过它具有离散功能的同级产品：朴素贝叶斯分类器。

现在来看边界后验的S形，它描述了两类之间不确定性的过渡。如果我们可以在不事先知道类条件的情况下直接对形状进行建模，那会很酷吗？但是如何？让我们通过一些数学工作。

注意，红色和蓝色曲线是对称的，并且它们总和为1，因为它们在贝叶斯定理中已归一化。让我们看看红色的。只是p（C0 | X），它是X的函数。我们通过将顶部和底部与顶部除以以下形式来稍微按摩一下前面的方程，

从概率论的角度来看为什么选择Sigmoid

对于右下角的项，我们可以取消先验项，因为它们相等，并为类条件条件插入高斯项。

从概率论的角度来看为什么选择Sigmoid

好的，这很好！我们在exp（）中有一个x的线性函数，如果我们设置z = -2x + 8，则将其写为后验，它变为

从概率论的角度来看为什么选择Sigmoid

这就是逻辑Sigmoid函数！如果您问为什么我们对z带有负号，那是因为为了方便起见，我们希望p和z在同一方向上是单调的，这意味着增加z会增加p。反之称为对数赔率或对数，这是我们可以使用线性函数进行建模的部分。

从概率论的角度来看为什么选择Sigmoid

回顾上面的逻辑流程，到底发生了什么事情，才使得S形的S形和z的x的线性函数成为可能？这将为我们提供一些见识，以决定何时可以以此方式对分类进行建模。

对于S形，您会看到它自然来自两个类的贝叶斯规则，即目标变量的伯努利分布。并不需要班级条件为高斯！可能会有一个具有相似指数形式的分布族，适合我们在上面遇到的相同推导！只要结果y是二进制，输入X的类条件分布就可以具有一定的灵活性。

接下来，z的线性形式。在这个例子中，我们有两个具有相同方差和先验的高斯。这些事实使我们可以抵消推导中X的先验和二次项。这个要求看起来很严格。的确，如果我们改变高斯的形状，决策边界将不再是一条直线。考虑下面的2D示例。如果两个高斯具有相同的协方差矩阵，则决策边界为线性；否则，决策边界为线性。在第二张图中，它们具有不同的协方差矩阵，决策边界是抛物线的。

从概率论的角度来看为什么选择Sigmoid

> Source: K. Murphy, Machine Learning: A Probabilistic Perspective

这告诉我们的是，如果我们使用S型函数和线性边界（也称为逻辑回归）直接对后验模型（判别方法）进行建模，则与GDA的生成方法相比，它具有一些优缺点。 GDA的假设比logistic回归要强得多，但是当高斯假设为真时，与logistic回归相比，它需要更少的训练数据来达到类似的性能。但是，如果类条件的假设不正确，则逻辑回归会更好，因为它不需要对特征的分布建模。

凯文·墨菲（Kevin Murphy）在《机器学习：概率观点》的8.6.1节中对GDA和逻辑回归进行了广泛的比较。我在这里讨论GDA只是为了表明当我们尝试对Bernoulli目标变量和一些假设建模时，S型函数会自然产生。

3. Logistic回归的潜在变量公式

我们通过用高斯噪声项定义线性预测变量来设计线性回归。在二进制分类的情况下，我们可以做类似的事情吗？我们可以！让我们这样看

从概率论的角度来看为什么选择Sigmoid

线性预测变量加上错误在这里的计算结果称为潜变量，因为它是未观测到的，而是根据观测变量x计算得出的。通过潜在变量是否超过阈值（在这种情况下为0）来确定二进制结果。（请注意，为了便于以后进行累积分布解释，决策阈值通常设置为0而不是0.5。在数学上，此处的0或0.5无关紧要，因为线性预测变量可以更新偏差项以进行补偿。）

如果我们假设误差项具有逻辑分布，其累积分布为逻辑S型函数（如下并排显示），则可以得到逻辑回归模型！

从概率论的角度来看为什么选择Sigmoid

> Source: Wikipedia

将潜在随机变量表示为Y *，将线性预测变量表示为z，将累积分布表示为F，则观察到结果y = 1的概率为：

从概率论的角度来看为什么选择Sigmoid

我们制作了S形函数，因此它在0附近对称，

从概率论的角度来看为什么选择Sigmoid

所以我们可以写

从概率论的角度来看为什么选择Sigmoid

现在，我们达到了将伯努利结局的概率表示为线性预测变量的S形的目标！

上面给出了线性预测器z和预测p之间的关系。函数F或机器学习中的激活函数是逻辑S形。激活函数的逆函数称为链接函数，该链接函数将预测映射回z。它是逻辑回归中的logit。

从概率论的角度来看为什么选择Sigmoid

概括地说，推导本质上是在说，如果我们假设误差项具有对数分布，那么我们伯努利结果的概率就是线性预测变量的S形。

如果您仔细看一下推导，这种公式不需要逻辑分布即可工作。它只需要0附近的对称分布。什么是合理的选择？高斯！如果我们假设误差为高斯怎么办？实际上，它为我们提供了另一个模型，该模型与逻辑回归相似，并且也可以完成工作。这称为概率回归。

4.替代方案：概率模型

与旨在解决同一任务的替代模型进行比较，是了解我们的主题（逻辑回归及其假设）的好方法。

如上一节所述，可以使用相同的潜在变量公式但具有高斯误差来公式化用于二进制分类的概率模型。您可能想知道为什么它不像逻辑回归那样被广泛使用，因为假定高斯误差似乎更自然。原因之一是高斯分布不具有闭合形式的CDF，并且其导数在训练期间更难计算。逻辑分布具有与高斯非常相似的形状，但其CDF（又称逻辑Sigmoid）具有封闭形式且易于计算的导数。

让我们看一下推导

从概率论的角度来看为什么选择Sigmoid

Φ是高斯的CDF。注意，我们用σ除以获取标准正态变量，并使用对称性获得了最后的结果。这表明我们无法分别识别θ和σ，因为p仅取决于它们的比率。这意味着未识别潜在变量的规模。因此，我们设置σ= 1并以潜变量的标准偏差为单位解释θ。

上面的推导与逻辑回归的推导之间的唯一区别是，激活函数设置为高斯CDF，而不是逻辑S形，即逻辑分布的CDF。高斯CDF的倒数称为概率，在这里用作链接函数。

从概率论的角度来看为什么选择Sigmoid

概率回归在生物和社会科学中被更多地用作惯例。它通常产生与逻辑回归相似的结果，并且难以计算。如果您不是该领域的专业统计学家，则逻辑回归是首选模型。

还有另一个链接函数，称为补全日志，可用于伯努利响应，这里我不做详细介绍，但是如果您感兴趣，可以阅读。

5.指数族，广义线性模型和规范链接函数

到目前为止，我们已经看到了线性，逻辑和概率回归。它们的主要区别之一是链接功能。如果我们将其抽象出来并做出一些其他假设，则可以定义更广泛的模型类别，称为广义线性模型。

GLM对p（y | x）的期望值进行建模，即μ= E [y | x; θ]。对于线性回归，μ只是线性预测变量，换言之，其链接函数是恒等函数。但是对于其他情况，p（y | x）可以是指数形式或其他形式，如果我们仍然想以某种方式使用线性预测变量，则必须对其进行转换以匹配输出。

为了实现GLM的飞跃，我们首先利用一种很好的数学形式将一些使用最广泛的分布组合在一起，以便研究它们的共享属性。除了查看具有各自参数的每个发行版之外，我们还可以查看如下所示的共享表单，

从概率论的角度来看为什么选择Sigmoid

可以推算为这种形式的分布称为指数族（请注意，它与指数分布不同）。在这里，y是我们试图预测的目标响应变量。统计学家为这些术语开发了一些花哨的名字。但是我在这里重点是术语η，也称为自然参数。为了我们的目的，我们可以假设T（y）（称为足够统计量）仅为y。因此，自然参数η只是将那个exp（）中的结果y映射到左侧的概率。让我们用一个具体的例子来说明我的意思。

对于具有均值μ的伯努利目标变量，我们可以写成

从概率论的角度来看为什么选择Sigmoid

自然参数η证明是对数！由于指数族的这种表述，对数也被称为伯努利分布的规范链接函数。正如我们之前所看到的，probit也是链接函数，但是它不是规范的，因为它不在这里的指数族设置中。

现在，我们已经准备好过渡到GLM。使用指数族及其自然参数，我们可以根据结果y的分布为线性预测变量定义规范链接函数。在伯努利结局的情况下，这种方法为我们提供了logit链接和logistic回归。

指数族为我们提供了很多不错的特性。结果表明，它们的对数似然性总是凹形的（等效地，负对数似然性总是凸形的），并且它们基于梯度的优化具有相同的形式，因此我们总是可以使用一些迭代算法来找到最佳拟合。

除伯努利外，指数族中的其他一些著名分布还包括高斯分布，泊松分布，伽玛分布，指数分布，Beta和Dirichlet。

要为您的机器学习任务选择GLM，请考虑目标变量y的类型。例如，如果y为实数，则使用高斯（最小二乘回归）；如果是二进制文件，请使用Bernoulli（逻辑回归）；如果是计数，请使用泊松（泊松回归）等。

摘要

在入门课程和书籍中，通常在没有充分理由的情况下将解决方案强加给读者。从许多不同的资源中找到线索并加以利用并不容易。希望本文可以为有疑问的人提供'为什么是Sigmoid'问题的较全面和直观的答案。学习的目标不仅是知道如何做，而且还知道为什么要这样，以便我们可以在实际应用程序中概括我们的学习。

该主题引发了广义线性模型的更广泛主题。 GLM是功能强大的一类模型，没有像深度学习那样受到关注。在许多情况下，正确应用GLM可能会完成工作，同时使您的生活更轻松。与深度学习技术相比，GLM具有数学简单和经过深入研究的可解释性的优势。对基础理论的扎实理解还可以帮助机器学习研究人员和从业人员开发新方法。如果您有兴趣进一步追求这一主题，我建议Philippe Rigollet教授的MIT 18.650应用程序统计讲座和参考资料。继续学习！