数据科学家必须掌握的 10 个统计概念

#如何成为数据科学家# #统计概念#

本文翻译自Soner Yıldırım《10 Must-Know Statistical Concepts for Data Scientists》来源：Medium

数据科学是一个跨学科领域。数据科学的基石之一是统计学。如果没有相当水平的统计知识，就很难理解或解释数据。

统计数据帮助我们解释数据。我们使用统计数据根据从总体中抽取的样本来推断有关总体的结果。此外，机器学习和统计学有很多重叠之处。

长话短说，要想成为一名数据科学家，需要学习统计学及其概念。在这篇文章中，我将尝试解释 10 个基本的统计概念。

1.总体和样本

总体是一个组中的所有元素。例如，美国大学生是包括美国所有大学生的总体。欧洲的 25 岁人口包括所有符合描述的人口。

对总体进行分析并不总是可行或可能的，因为我们不能收集一个总体的所有数据，因此，我们使用样本。

2. 正态分布

概率分布是显示事件或实验结果概率的函数。考虑数据框中的一个特征（即列）。这个特征是一个变量，它的概率分布函数显示了它可以取的值的可能性。

概率分布函数在预测分析或机器学习中非常有用。我们可以根据来自该总体的样本的概率分布函数对总体进行预测。

正态（高斯）分布是一种看起来像钟形的概率分布函数。

下图是使用 NumPy 的 numpy.random.randn 函数返回的随机样本创建的典型正态分布曲线的形状。

典型的正态分布曲线

曲线的峰值表示变量可以采用的最可能值。当我们远离峰值时，这些值的概率会降低。

以下是正态分布的更正式表示。百分比表示落在该区域的数据的百分比。当我们远离均值时，我们开始看到更多的极值，但被观察到的概率却越来越小。

3. 集中趋势度量

集中趋势是概率分布的中心（或典型）值。最常见的集中趋势度量是均值、中位数和众数。

均值是一系列值的平均值；
中值是按升序或降序对值进行排序时位于中间的值；
众数是最常出现的值。

4. 方差和标准差

方差是值之间变化的度量。它的计算方法是将每个值与平均值差值的平方相加，然后将总和除以样本数。

标准差是衡量值的分布情况，更具体地说，它是方差的平方根。

注意：均值、中位数、众数、方差和标准差是有助于解释变量的基本描述性统计量。

5. 协方差和相关性

协方差是一种定量度量，表示两个变量的变化相互匹配的程度。更具体地说，协方差根据与均值（或预期）值的偏差来比较两个变量。

下图显示了随机变量 X 和 Y 的一些值。橙色点代表这些变量的均值。这些值相对于变量的平均值变化类似。因此，X 和 Y 之间存在正协方差。

两个随机变量的协方差公式：

其中 E 是期望值，μ 是平均值。

注意：变量与自身的协方差就是该变量的方差。

相关性是通过每个变量的标准差对协方差进行归一化。

其中 σ 是标准差。

这种归一化抵消了单位，相关值始终在 0 和 1 之间。请注意，这是绝对值。如果两个变量之间存在负相关，则相关性介于 0 和 -1 之间。如果我们比较三个或更多变量之间的关系，最好使用相关性，因为值的范围或单位可能会导致错误的假设。

6. 中心极限定理

在包括自然科学和社会科学在内的许多领域中，当随机变量的分布未知时，使用正态分布。

中心极限定理 (CLT) 证明了为什么可以在这种情况下使用正态分布。根据 CLT，当我们从分布中抽取更多样本时，无论总体分布如何，样本平均值都将趋向于正态分布。

考虑一个案例，我们需要了解一个国家所有 20 岁人口的身高分布。收集这些数据几乎是不可能的，当然也不切实际。所以，我们抽取全国20岁的人作为样本，计算样本中人的平均身高。CLT 指出，随着我们从总体中抽取更多样本，抽样分布将接近正态分布。

为什么正态分布如此重要？正态分布用平均值和标准差来描述，这很容易计算。而且，如果我们知道正态分布的均值和标准差，我们几乎可以计算出关于它的所有内容。

7. P 值

P 值是随机变量取值的可能性。考虑我们有一个随机变量 A 和值 x。x 的 p 值是 A 取值 x 或任何具有相同或更少机会被观察到的值的概率。下图显示了 A 的概率分布，很可能会观察到 10 左右的值。随着值的升高或降低，概率会降低。

我们有另一个随机变量 B，想看看 B 是否大于 A。从 B 获得的平均样本平均值是 12.5 。12.5 的 p 值是下图中的绿色区域。绿色区域表示获得 12.5 或更极端值的概率（在我们的例子中高于 12.5）。

假设 p 值为 0.11，但我们如何解释它？p 值为 0.11 意味着我们对结果有 89% 的把握。换句话说，结果有 11% 的几率是随机的。类似地，p 值为 0.05 意味着结果有 5% 的可能性是由于随机机会造成的。

注意：p 值越低，结果越确定。

如果来自随机变量 B 的样本均值的平均值结果为 15，这是一个更极端的值，则 p 值将低于 0.11。

8. 随机变量的期望值

随机变量的期望值是该变量所有可能值的加权平均值。这里的权重是指随机变量取特定值的概率。

对于离散和连续随机变量，期望值的计算方式不同。

离散随机变量取有限多个或可数无限多个值。一年中的下雨天数是一个离散的随机变量。

连续随机变量取无数个无穷多的值。例如，从家到办公室的时间是一个连续随机变量。根据您测量它的方式（分钟、秒、纳秒等），它需要无数个无穷多的值。

离散随机变量的期望值公式为：

连续随机变量的期望值是用相同的逻辑但使用不同的方法计算的。由于连续随机变量可以取不可数的无穷多个值，因此我们不能谈论取特定值的变量。我们更专注于价值范围。

9. 条件概率

概率仅表示事件发生的可能性，并且始终取 0 到 1（包括 0 和 1）之间的值。事件 A 的概率表示为 p(A) 并计算为期望结果的数量除以所有结果的数量。例如，当您掷骰子时，得到小于 3 的数字的概率为 2 / 6。所需结果的数量为 2（1 和 2）；总结果数为 6。

条件概率是给定与事件 A 相关的另一个事件已经发生的情况下事件 A 发生的可能性。

假设我们将 6 个蓝色球和 4 个黄色球放在两个盒子中，如下所示。我请你随机挑选一个球。得到蓝球的概率是 6 / 10 = 0.6。如果我让你从盒子 A 中挑选一个球怎么办？捡到蓝球的概率明显降低。这里的条件是从盒子 A 中挑选，这显然会改变事件的概率（挑选一个蓝色球）。给定事件 B 发生的事件 A 的概率表示为 p(A|B)。

10. 贝叶斯定理

根据贝叶斯定理，在事件B已经发生的情况下，可以使用事件A和事件B的概率以及在事件A已经发生的情况下事件B的概率来计算事件A的概率。

贝叶斯定理是如此基本和普遍，以至于存在一个称为“贝叶斯统计”的领域。在贝叶斯统计中，作为证据的事件或假设的概率开始发挥作用。因此，先验概率和后验概率因证据而异。

朴素贝叶斯算法的结构是结合贝叶斯定理和一些朴素假设。朴素贝叶斯算法假设特征相互独立，特征之间没有相关性。

结论

我们已经介绍了一些基本的统计概念。如果你正在或计划在数据科学领域工作，你很可能会遇到这些概念。

当然，关于统计学还有很多东西需要学习。一旦您了解了基础知识，您就可以稳步地学习高级主题。