了解概率分布

文殊院士 2021-03-11

展开全文

数据科学基础上的返回基础知识

Cassie Kozyrkov.

6分钟阅读

测试自己！您可以解释哪些核心统计概念中有多少？

CLT，CDF，分布，估计，预期值，直方图，峰，致峰，致命，平均值，中位数，MGF，模式，时刻，参数，概率，PDF，随机变量，随机变化，偏振，标准偏差，尾部，方差

你的知识有一些差距？阅读！

注意：如果在下面看到一个不熟悉的术语，请按照链接进行解释。

随机变量

随机变量（R.V.）是一个数学函数，使现实变为数字。将其视为规则，以确定在实际活动发生后应在数据集中记录的数字。

随机变量是简化现实的规则。

例如，如果我们对六面骰子的卷感兴趣，我们可能会定义x是将您的粘糊糊的感官体验映射到其中一个数字的随机变量：{1,23,4,5,6}。或者我们只能为奇数/偶数记录{0,1}。这一切都取决于我们如何选择定义我们的R.V.

> Image: SOURCE.

（如果这太技术了，只需将一个随机变量视为指示结果的方式：如果x是关于Die Rolls，x = 4是一种说明我们滚动的方式。如果它没有技术，那么你就没有几乎肯定地爱好措施理论课。）

随机变体

许多学生将随机变体混淆随机变量。如果您是一个休闲读者，跳过这一点，但爱好者注意：随机变体是结果值，如{1,2,3,4,5,6}，而随机变量是将现实映射到数字上的函数。在教科书的公式中小x与大x。

可能性

p（x = 4）将用英语阅读为“我的死亡概率与4面朝上的概率。”如果我有一个公平的六面模，p（x = 4）= 1/6。但是……但是……但是……概率是什么，这是1/6来自哪里？很高兴你问！我在这里为您提供了一些概率基础，其中组合抛出作为奖金。

分布

分发是一种表达X可以采用的整个值集的概率的方法。

分发为您提供了样本竞争的图形形式。

概率密度函数（PDF）

召唤分配的最佳方法是完全其真名：其概率密度函数。这样的函数是什么意思？如果我们将X放在X轴上（YUP），那么Y轴上的高度显示每个结果的概率。

> A probability density function gives you popularity contest results for your whole population. It’s basically the population histogram. Horizontal axis: population data values. Vertical axis: relative popularity. To learn more about this graph and the details that I omitted, head over to here.

正如我这里详细说明的那样，分发基本上是一个想象中的理想条形图（用于离散的RV）或直方图（用于连续RV）。*换句话说，分布比X的更可能值更高。所有结果（“离散统一”）的公平模具有相同的高度;不是为了加权死亡。

> Like distributions, you can think of bar charts and histograms as popularity contests. Or tip jars. That works too.

累积密度函数（CDF）

这是概率密度函数的积分**。用英语讲？而不是显示每个x的每个值的可能性，而是显示所有x和下面的累积概率。如果你正在考虑百分比，很棒。百分位数是x轴上的内容，百分比是y轴上的内容。

概率：在六面的死亡中获得3个？1/6调用：获得3或更低？3/6第50百分位为A 3. 3沿X轴进行，50％在Y轴上。

选择您的分布

你如何知道你的x是什么分布？统计员有两种最喜欢的方法。他们（1）从他们的数据估计实证分布 - 使用，你猜到它，直方图！ - 或者他们（2）理解假设一个受欢迎的分发目录的成员看起来最类似于他们认为他们的数据源行为的行为。（如果您有数据，请通过假设测试检查这些分销假设是一个很好的想法。）

> The standard approach to choosing a distribution involves plotting a histogram and comparing its shape with the shapes of theoretical distributions in a catalog, such as the list of distributions on Wikipedia, in your textbook, or on the sales page for the distribution plushies above. (And now you get to wonder just how much I’m kidding.) Image: SOURCE.

当我们看看我们的目录时，我们注意到各种分布有名称，如“正常”或“Chi-Squared”或“Cauchy”……这使得学生误认为这些是唯一的选择。他们不是。他们只是着名的。就像人一样，发行可能以错误的原因而闻名。

就像人一样，发行可能以错误的原因而闻名。

在加方面，命名分布包括整洁的PDF和一堆计算为您。

在减号方面，您的应用程序可能不适合目录中的任何内容。感谢实证选择的良好。

参数

这是非常流行分布的概率密度函数，正常分布（A.K.A.Gaussian或Bell形曲线）：

让我们说实话 - 洞察力并不完全脱离页面。这就是为什么我们倾向于更喜欢向我们提出关于兴趣的特定参数的问题。在统计数据中，参数总结群体或分布。例如，如果您要求分发峰值为零，则询问其模式的位置（参数）。如果您要询问分发的脂肪是多么胖，您就询问其方差（另一个参数）。在一瞬间，我会带你去参观我最喜欢的一些参数。

但在我们这样做之前，让我回答这个问题：而不是计算摘要措施，为什么我们不只是绘制这个函数并ogle它？我们还没有准备好。

如果您查看上面的函数，您将注意到存在一些希腊字母：μ和σ。***这些是该分布的特殊参数;直到我们用数字替换它们，我们还没准备好绘制任何东西。没有他们，我们所能做的就是了解分布的抽象形状的模糊感，如下所示：

> Image: SOURCE.

想要轴吗？把希腊字母的数字放在哪里。例如，这是你用μ= 0 Vs 5 VS 10和σ= 1：

> Pink μ = 0, Blue μ = 5, Green μ = 10

有更多的希腊语享受，因为其他分布使用其他角色以获得特殊数量。最终，你会厌倦它并开始使用θν，θ2，θν等。

它也值得记住，分布及其参数是涉及对您没有收到所有信息的人口的假设的理论对象，而直方图是更实用的对象 - 您所做的示例数据摘要。如果您将概念与样品和人群保持分开的概念，您将避免充足的混淆，因此它可能值得在这里刷新。

> You can find my explanations here.

现在我们已准备好参加我最喜欢的参数，在第2部分继续。

脚注

*技术上，一个离散的R.v.的函数称为概率质量函数而不是概率密度函数，但如果您称为PMF A PDF，我还没有满足任何关心的人。

**如果您有一个离散的R.V.，那么这是总和而不是积分。

***没有什么特别的关于那个π。这只是我们3月14日庆祝的常规之一。

(本文由闻数起舞翻译自EMMANUEL FOURREY的文章《Getting to know probability distributions》，转载请注明出处，原文链接：https:///getting-to-know-probability-distributions-cc1dd1e2f22b)