概率论基础知识整理：概率分布、边缘/条件概率、期望、协方差

好易学 2019-02-22

展开全文

一、概率分布

离散型变量的概率分布可以用 概率质量函数(probability mass function, PMF) 来描述。我们通常用大写字母 P 来表示概率质量函数。通常每一个随机变量都会有一个不同的概率质量函数，并且读者必须根据随机变量来推断所使用的 PMF，而不是根据函数的名称来推断;例如，P(x) 通常和 P(y) 不一样。

概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。x = x 的概率用 P(x) 来表示，概率为 1 表示 x = x 是确定的，概率为 0 表示 x = x 是不可能发生的。有时为了使得PMF的使用不相互混淆，我们会明确写出随机变量的名称:P (x = x)。有时我们会先定义一个随机变量，然后用 ∼ 符号来说明它遵循的分布:x ∼ P (x)。

概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布(joint probability distribution)。P (x = x, y = y) 表示 x = x 和 y = y 同时发生的概率。我们也可以简写为 P (x, y)。

当我们研究的对象是连续型随机变量时，我们用 概率密度函数(probability density function, PDF)而不是概率质量函数来描述它的概率分布。概率密度函数 p(x) 并没有直接对特定的状态给出概率，相对的，它给出了落在面积为 δx 的无限小的区域内的概率为：

p(x)δx

我们可以对概率密度函数求积分来获得点集的真实概率质量。特别地，x 落在集合 S 中的概率可以通过 p(x) 对这个集合求积分来得到。在单变量的例子中，x 落在区间 [a, b] 的概率是：

为了给出一个连续型随机变量的 PDF 的例子，我们可以考虑实数区间上的均匀分布。我们可以使用函数 u(x; a, b)，其中 a 和 b 是区间的端点且满足 b > a。符号“;’’ 表示 ‘‘以什么为参数’’.我们把 x 作为函数的自变量，a 和 b 作为定义函数的参数。为了确保区间外没有概率，我们对所有的 x ∉ [a, b]，令 u(x; a, b) = 0。在 [a, b]内，有:

我们可以看出任何一点都非负。另外，它的积分为 1。我们 b−a通常用 x ∼ U(a,b) 表示 x 在 [a,b] 上是均匀分布的。

二、边缘概率

有时候，我们知道了一组变量的联合概率分布，但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为 边缘概率分布(marginal probability distribution)。

例如，假设有离散型随机变量 x 和 y，并且我们知道 P(x,y)。我们可以依据下面的 求和法则(sum rule)来计算 P (x):

‘‘边缘概率’’ 的名称来源于手算边缘概率的计算过程。当 P(x,y) 的每个值被写在由每行表示不同的 x 值，每列表示不同的 y 值形成的网格中时，对网格中的每行求和是很自然的事情，然后将求和的结果 P(x) 写在每行右边的纸的边缘处。

对于连续型变量，我们需要用积分替代求和:

三、条件概率

在很多情况下，我们感兴趣的是某个事件在给定其他事件发生时出现的概率。这种概率叫做条件概率。我们将给定 x = x，y = y 发生的条件概率记为 P (y = y | x = x)。这个条件概率可以通过下面的公式计算:

条件概率只在 P (x = x) > 0 时有定义。我们不能计算给定在永远不会发生的事件上的条件概率。

这里需要注意的是，不要把条件概率和计算当采用某个动作后会发生什么相混淆。假定某个人说德语，那么他是德国人的条件概率是非常高的，但是如果随机选择的一个人会说德语，他的国籍不会因此而改变。

条件概率的链式法则：

任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式:

例如：

四、期望、方差、协方差

函数 f(x) 关于某分布 P(x) 的 期望(expectation)或者 期望值(expected value)是指，当 x 由 P 产生，f 作用于 x 时，f(x) 的平均值。对于离散型随机变量，这可以通过求和得到:

连续型通过积分得到：

当概率分布在上下文中指明时，我们可以只写出期望作用的随机变量的名称来进行简化，例如 Ex[f(x)]。如果期望作用的随机变量也很明确，我们可以完全不写脚标，就像 E[f(x)]。默认地，我们假设 E[·] 表示对方括号内的所有随机变量的值求平均。类似的，当没有歧义时，我们还可以省略方括号。

期望是线性的，例如：

方差(variance)衡量的是当我们对 x 依据它的概率分布进行采样时，随机变量 x 的函数值会呈现多大的差异:

当方差很小时，f(x) 的值形成的簇比较接近它们的期望值。

标准差是方差的算术平方根。

协方差(covariance)在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度:

协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很远。如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得相对较小的值，反之亦然。其他的衡量指标如相关系数(correlation)将每个变量的贡献归一化，为了只衡量变量的相关性而不受各个变量尺度大小的影响。

协方差和相关性是有联系的，但实际上是不同的概念。它们是有联系的，因为两个变量如果相互独立那么它们的协方差为零，如果两个变量的协方差不为零那么它们一定是相关的。然而，独立性又是和协方差完全不同的性质。两个变量如果协方差为零，它们之间一定没有线性关系。独立性比零协方差的要求更强，因为独立性还排除了非线性的关系。两个变量相互依赖但具有零协方差是可能的。

随机向量 x ∈ $\mathbb{R}^{n}$ 的协方差矩阵(covariance matrix)是一个 n × n 的矩阵，并且满足：

协方差矩阵的对角元是方差: