为什么正态分布在AI中如此重要?

goandlove 2019-07-17

展开全文

普通概率分布有什么特别之处？为什么这么多数据科学和机器学习文章围绕正态概率分布？

我决定写一篇文章试图以一种易于理解的方式解释正态概率分布的概念。

机器学习的世界围绕概率分布，概率分布的核心集中在正态分布上。本文说明了正态分布是什么以及为什么它被广泛使用，特别是对于数据科学家和机器学习专家。

我将从基础知识中解释一切，以便读者理解为什么正态分布非常重要

文章结构

本文将解释：

概率分布是什么？
什么正态分布意味着什
哪些变量表现出正态分布？
如何在Python中检查数据集的分布？
如何使变量在Python中正常分布？
正常问题

照片由TimJ在Unsplash上拍摄

首先是一点背景
首先，最重要的一点是正态分布也称为高斯分布。
它以Carl Friedrich Gauss天才命名。

正态分布也称为高斯分布。

最后，需要注意的一点是，简单的预测模型通常是最常用的模型，因为它们可以被解释并且被充分理解。现在补充一点; 正态分布很简单，因此它的简单性使它非常受欢迎。

因此，值得了解正态概率分布是什么。

但首先，概率分布意味着什么？

让我先解释一下构建适当的构建块。

考虑我们可能有兴趣在我们的数据科学项目中构建的预测模型。

如果我们想要准确地预测变量，那么我们需要执行的第一项任务就是了解目标变量的基本行为。

我们首先需要做的是确定目标变量的可能结果，以及潜在结果是离散的（不同的值）还是连续的（无限值）。为简单起见，如果我们估计骰子的行为，那么第一步是知道它可以取1到6的任何值（离散）。

然后，下一步是开始为事件（值）分配概率。因此，如果不能发生值，则为其分配概率为0％。

概率越高，事件发生的可能性越大。

摄影：Brett Jordan，来自Unsplash

作为一个例子，我们可以开始重复实验很多次并开始注意我们为变量检索的值。

现在我们可以做的是将值分组到类别/桶中。对于每个存储桶，我们可以开始记录变量具有存储桶值的次数。例如，我们可以掷骰子10000次，因为骰子可以有6个可能的值，我们可以创建6个桶。并开始记录每个值的出现次数。

我们可以绘制图表，它将形成一条曲线。该曲线称为概率分布曲线，目标变量获得值的可能性是变量的概率分布。

一旦我们理解了值的分布情况，我们就可以开始估计事件的概率，即使是通过使用公式（称为概率分布函数）。因此，我们可以更好地了解其行为。概率分布取决于样本的时刻，例如平均值，标准偏差，偏度和kertosis。

如果添加所有概率，则总计将达到100％。

存在大量概率分布，并且最广泛使用的概率分布被称为“正态分布”。

让我们现在转向正态概率分布

如果绘制概率分布并形成钟形曲线并且样本的均值，模式和中值相等，则变量具有正态分布。

这是正态分布钟形曲线的示例：

理解和估计目标变量的概率分布非常重要。

以下变量接近正态分布变量：

人口的高度
成年人的血压
经历扩散的粒子的位置
测量误差
回归中的残差
鞋子大小的人口
员工到家的时间
大量的教育措施

此外，我们周围有大量的变量是正常的，ax％置信度; x <100。

摄影：Mathew Schwartz在Unsplash上

什么是正态分布？

正态分布是仅依赖于数据集的两个参数的分布：其平均值和样本的标准偏差。

平均值 - 这是样本中所有点的平均值。
标准偏差 - 表示数据集偏离样本平均值的程度。

分布的这种特性使统计人员非常简单，因此任何具有正态分布的变量都可以以更高的精度进行预测。

现在，需要注意的是，一旦你发现大多数变量在自然界中的概率分布，那么它们都大致遵循正态分布。

正态分布很容易解释。原因是：

分布的均值，模式和中位数相等。
我们只需要使用均值和标准差来解释整个分布。

正态分布只是......我们熟悉的正常行为

但是，如此多的变量大致正态分布？它背后的逻辑是什么？

这个想法围绕着这样的定理：当你在大量随机变量上重复实验很多次时，它们的分布总和将非常接近正态性。

由于人的身高是一个随机变量，并且基于其他随机变量，例如一个人消耗的营养量，他们所处的环境，他们的遗传等等，这些变量的分布总和最终是非常接近正常。

这被称为中心极限定理。

这将我们带到了文章的核心：

我们从上面的部分可以理解，正态分布是许多随机分布的总和。如果我们绘制正态分布密度函数，它的曲线具有以下特征：

上面的钟形曲线有100个均值和1个标准差

平均值是曲线的中心。这是曲线的最高点，因为大多数点都是平均值。
曲线的每一侧有相同数量的点。曲线的中心具有最多的点数。
曲线下的总面积是变量可以采用的所有值的总概率。
因此总曲线面积为100％

所有点中约68.2％在-1至1标准偏差的范围内。
所有点中约95.5％在-2至2个标准偏差的范围内。
所有点中约99.7％在-3至3个标准偏差的范围内。

这使我们可以轻松估计变量的易变性，并给出置信水平，它的可能值是多少。

例如，在上面的灰色钟形曲线中，变量值在66-99之间的可能性为68.2％。

想象一下，在使用该信息做出未来决策时，您现在可以拥有的信心！

正态概率分布函数

正态分布的概率密度函数是：

概率密度函数基本上是连续随机变量取值的概率。

正态分布是钟形曲线，其中mean = mode = median。

如果使用其计算的概率密度函数绘制概率分布曲线，则给定范围的曲线下面积给出目标变量在该范围内的概率。

该概率分布曲线基于概率分布函数，该概率分布函数本身是根据诸如平均值或变量的标准偏差的多个参数计算的。

我们可以使用这个概率分布函数来找出随机变量取一个范围内的值的相对概率。作为一个例子，我们可以记录股票的每日回报，将它们分组到适当的桶中，然后找到股票在未来获得20-40％收益的概率。

标准偏差越大，样品中的挥发性越大。

如何在Python中查找功能分发？

我遵循的最简单的方法是加载数据框中的所有功能，然后编写此脚本：

使用Python Pandas libarary：

DataFrame.hist（bins = 10）＃制作DataFrame的直方图。

它向我们展示了所有变量的概率分布。

变量具有正态分布意味着什么？

现在更令人着迷的是，一旦你添加了大量具有不同分布的随机变量，你的新变量将最终具有正态分布。这基本上称为中心极限定理。

表现出正态分布的变量总是表现出正态分布。作为一个例子，如果A和B是两个具有正态分布的变量，那么：

A x B是正态分布的
A + B通常是分布式的

结果，由于众所周知的概率分布函数，预测变量并在一定范围内找到它的概率非常简单。

如果样品分布不正常怎么办？

您可以将要素的分布转换为正态分布。

我使用了许多技术来使功能正常分布：

1.线性变换

一旦我们收集变量的样本，我们就可以通过使用上面的公式线性转换样本来计算Z得分：

计算平均值
计算标准偏差
对于每个值x，使用以下方法计算Z：

2.使用Boxcox转换

您可以使用SciPy Python包将数据转换为正态分布：

scipy.stats.boxcox（x ，lmbda =无，alpha =无）

3.使用Y eo-Johnson转换

另外，可以使用电力变压器yeo-johnson。Python的sci-kit learn提供了相应的功能：

sklearn.preprocessing.PowerTransformer（method ='yeo-johnson'，standardize = True，copy = True）

注意，建议了解何时使用每个电源变压器。对Box-Cox和Yeo Johnson等电力变压器及其用例的解释超出了本文的范围。

常态问题

由于正态分布简单且易于理解，因此它也在预测项目中过度使用。假设正常有其自身的缺陷。作为一个例子，我们不能假设股票价格遵循正态分布，因为价格不能为负。因此，股票价格可能跟随正态分布的对数，以确保它永远不会低于零。

我们知道回报可能是负数，因此回报可以遵循正态分布。

假设变量遵循正态分布而不进行任何分析是不明智的。

变量可以遵循Poisson，Student-t或Binomial分布作为实例，并错误地假设变量遵循正态分布可能导致不准确的结果。

总结

本文阐述了正态分布是什么以及为什么它如此重要，特别是对于数据科学家和机器学习专家。

希望能帮助到你。

需要学习AI或者Python请加微信号：Aspencore6，将会定期邀请入群。

总结

本文阐述了正态分布是什么以及为什么它如此重要，特别是对于数据科学家和机器学习专家。

希望能帮助到你。

需要学习AI或者Python请加微信号：Aspencore6，将会定期邀请入群。

来源：https:///fintechexplained/ever-wondered-why-normal-distribution-is-so-important-110a482abee3