分享

数据科学家必须掌握的 10 个统计概念

 天下小粮仓 2023-10-17 发布于福建
2023-10-10 15:43·览众山奇观

#如何成为数据科学家# #统计概念#

本文翻译自Soner Yıldırım10 Must-Know Statistical Concepts for Data Scientists》来源:Medium

数据科学是一个跨学科领域。数据科学的基石之一是统计学。如果没有相当水平的统计知识,就很难理解或解释数据。

统计数据帮助我们解释数据。我们使用统计数据根据从总体中抽取的样本来推断有关总体的结果。此外,机器学习和统计学有很多重叠之处。

长话短说,要想成为一名数据科学家,需要学习统计学及其概念。在这篇文章中,我将尝试解释 10 个基本的统计概念。

1.总体和样本

总体是一个组中的所有元素。例如,美国大学生是包括美国所有大学生的总体。欧洲的 25 岁人口包括所有符合描述的人口。

对总体进行分析并不总是可行或可能的,因为我们不能收集一个总体的所有数据,因此,我们使用样本。

2. 正态分布

概率分布是显示事件或实验结果概率的函数。考虑数据框中的一个特征(即列)。这个特征是一个变量,它的概率分布函数显示了它可以取的值的可能性。

概率分布函数在预测分析或机器学习中非常有用。我们可以根据来自该总体的样本的概率分布函数对总体进行预测。

正态(高斯)分布是一种看起来像钟形的概率分布函数。

下图是使用 NumPy 的 numpy.random.randn 函数返回的随机样本创建的典型正态分布曲线的形状。

典型的正态分布曲线

典型的正态分布曲线

曲线的峰值表示变量可以采用的最可能值。当我们远离峰值时,这些值的概率会降低。

以下是正态分布的更正式表示。百分比表示落在该区域的数据的百分比。当我们远离均值时,我们开始看到更多的极值,但被观察到的概率却越来越小。

3. 集中趋势度量

集中趋势是概率分布的中心(或典型)值。最常见的集中趋势度量是均值、中位数和众数。

  • 均值是一系列值的平均值;
  • 中值是按升序或降序对值进行排序时位于中间的值;
  • 众数是最常出现的值。

4. 方差和标准差

方差是值之间变化的度量。它的计算方法是将每个值与平均值差值的平方相加,然后将总和除以样本数。

标准差是衡量值的分布情况,更具体地说,它是方差的平方根。

注意:均值、中位数、众数、方差和标准差是有助于解释变量的基本描述性统计量。

5. 协方差和相关性

协方差是一种定量度量,表示两个变量的变化相互匹配的程度。更具体地说,协方差根据与均值(或预期)值的偏差来比较两个变量。

下图显示了随机变量 X 和 Y 的一些值。橙色点代表这些变量的均值。这些值相对于变量的平均值变化类似。因此,X 和 Y 之间存在正协方差。

两个随机变量的协方差公式:

其中 E 是期望值,μ 是平均值。

注意:变量与自身的协方差就是该变量的方差。

相关性是通过每个变量的标准差对协方差进行归一化。

其中 σ 是标准差。

这种归一化抵消了单位,相关值始终在 0 和 1 之间。请注意,这是绝对值。如果两个变量之间存在负相关,则相关性介于 0 和 -1 之间。如果我们比较三个或更多变量之间的关系,最好使用相关性,因为值的范围或单位可能会导致错误的假设。

6. 中心极限定理

在包括自然科学和社会科学在内的许多领域中,当随机变量的分布未知时,使用正态分布。

中心极限定理 (CLT) 证明了为什么可以在这种情况下使用正态分布。根据 CLT,当我们从分布中抽取更多样本时,无论总体分布如何,样本平均值都将趋向于正态分布

考虑一个案例,我们需要了解一个国家所有 20 岁人口的身高分布。收集这些数据几乎是不可能的,当然也不切实际。所以,我们抽取全国20岁的人作为样本,计算样本中人的平均身高。CLT 指出,随着我们从总体中抽取更多样本,抽样分布将接近正态分布。

为什么正态分布如此重要?正态分布用平均值和标准差来描述,这很容易计算。而且,如果我们知道正态分布的均值和标准差,我们几乎可以计算出关于它的所有内容。

7. P 值

P 值是随机变量取值的可能性。考虑我们有一个随机变量 A 和值 x。x 的 p 值是 A 取值 x 或任何具有相同或更少机会被观察到的值的概率。下图显示了 A 的概率分布,很可能会观察到 10 左右的值。随着值的升高或降低,概率会降低。

我们有另一个随机变量 B,想看看 B 是否大于 A。从 B 获得的平均样本平均值是 12.5 。12.5 的 p 值是下图中的绿色区域。绿色区域表示获得 12.5 或更极端值的概率(在我们的例子中高于 12.5)。

假设 p 值为 0.11,但我们如何解释它?p 值为 0.11 意味着我们对结果有 89% 的把握。换句话说,结果有 11% 的几率是随机的。类似地,p 值为 0.05 意味着结果有 5% 的可能性是由于随机机会造成的。

注意:p 值越低,结果越确定。

如果来自随机变量 B 的样本均值的平均值结果为 15,这是一个更极端的值,则 p 值将低于 0.11。

8. 随机变量的期望值

随机变量的期望值是该变量所有可能值的加权平均值。这里的权重是指随机变量取特定值的概率。

对于离散和连续随机变量,期望值的计算方式不同。

离散随机变量取有限多个或可数无限多个值。一年中的下雨天数是一个离散的随机变量。

连续随机变量取无数个无穷多的值。例如,从家到办公室的时间是一个连续随机变量。根据您测量它的方式(分钟、秒、纳秒等),它需要无数个无穷多的值。

离散随机变量的期望值公式为:

连续随机变量的期望值是用相同的逻辑但使用不同的方法计算的。由于连续随机变量可以取不可数的无穷多个值,因此我们不能谈论取特定值的变量。我们更专注于价值范围。

9. 条件概率

概率仅表示事件发生的可能性,并且始终取 0 到 1(包括 0 和 1)之间的值。事件 A 的概率表示为 p(A) 并计算为期望结果的数量除以所有结果的数量。例如,当您掷骰子时,得到小于 3 的数字的概率为 2 / 6。所需结果的数量为 2(1 和 2);总结果数为 6。

条件概率是给定与事件 A 相关的另一个事件已经发生的情况下事件 A 发生的可能性。

假设我们将 6 个蓝色球和 4 个黄色球放在两个盒子中,如下所示。我请你随机挑选一个球。得到蓝球的概率是 6 / 10 = 0.6。如果我让你从盒子 A 中挑选一个球怎么办?捡到蓝球的概率明显降低。这里的条件是从盒子 A 中挑选,这显然会改变事件的概率(挑选一个蓝色球)。给定事件 B 发生的事件 A 的概率表示为 p(A|B)。

10. 贝叶斯定理

根据贝叶斯定理,在事件B已经发生的情况下,可以使用事件A和事件B的概率以及在事件A已经发生的情况下事件B的概率来计算事件A的概率。

贝叶斯定理是如此基本和普遍,以至于存在一个称为“贝叶斯统计”的领域。在贝叶斯统计中,作为证据的事件或假设的概率开始发挥作用。因此,先验概率和后验概率因证据而异。

朴素贝叶斯算法的结构是结合贝叶斯定理和一些朴素假设。朴素贝叶斯算法假设特征相互独立,特征之间没有相关性。

结论

我们已经介绍了一些基本的统计概念。如果你正在或计划在数据科学领域工作,你很可能会遇到这些概念。

当然,关于统计学还有很多东西需要学习。一旦您了解了基础知识,您就可以稳步地学习高级主题。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多