概率模型

莫为天下先 2022-10-13 发布于湖南

展开全文

本文讨论的是信号处理中用到的概率模型（Probabilistic Models），主要目的是为了了解概率模型相关的基础概念，以供后续文章展开更为深入的讨论。

符号定义

首先规定概率模型所采用的符号。概率模型所设计的基础符号分为三个部分：

1. Sample Space 样本空间，也就是一个概率模型的总空间，用Ψ表示，采样空间内包含了所有可能的outcome（输出）ψ。每一次experiment（实验）能产生一个输出

2. Event Algebra 事件代数，通常简称为event（事件），表示的是采样空间内某些输出的集合。如果在实验中产生的一个输出属于某个事件，我们可以理解为发生了该事件。按照这种说法，Ψ是一个必然事件，∅是一个不可能事件。

3. Probability Measure 概率测度。对于事件A，其概率为P(A)。

(a) P(A)≥0

(b) P(Ψ)=1

画图能使得概率模型更容易理解

贝叶斯规则Bayes'Rule

贝叶斯公式

有事件A与B，两者的概率分别为P(A)与P(B)，它们在样本空间有如下表示

在事件B已发生的情况下，事件A出现的概率记为P(A|B)。对照上方的样本空间，可以发现事件P(A|B)就是事件A∩B占事件B的比率。

P(A|B)≜P(A∩B)P(B),P(B)≠0

反过来有：

P(A∩B)=P(A|B)P(B)

同理也能得到

P(A∩B)=P(B|A)P(A)

把上面两个式子组合起来就能得到贝叶斯的一个公式

P(B|A)=P(A|B)P(B)P(A)

独立事件

如果事件A与B的概率满足以下条件，我们就认为两者相互独立

P(A|B)=P(A)orP(A∩B)=P(A)P(B)

即事件A在整个样本空间内的概率为P(A)，事件A在样本空间B内的概率仍然是P(A)。

随机变量Random Variables

由于输出ψ只是集合Ψ中的元素，为了方便进行数学上的分析，我们需要把ψ映射到实数X(ψ)，该实数被称为随机变量，通常称为随机变量X，请注意这是一个变量。

Outcome（输出）有可能是离散的，如抛一次硬币只能是正面或者反面；也有可能是连续的，如在记录某时刻的温度时，温度可以是某个温度区间内的任何值。因此有以下随机变量

离散随机变量（Discrete Random Variable）

X={1,heads0,tails

连续随机变量（Continuous Random Variable）

X=the exact temprature detected at 12:00 am

上面分别是离散以及连续输出到随机变量X的映射，X表示的是一个可能的取值，如上面的离散的情况取值可能为0或者1，而连续的情况取值则可能为区间上的任意一个值。

概率的相关函数

累计分布函数Cumulative Distribution Functions

累计分布函数（CDF）的输出是从−∞到变量x的累计概率

FX(x)=P(X≤x)

因此有

P(a<X≤b)=FX(b)–FX(a)

CDF在负无穷端的值为FX(−∞)=0，在正无穷端的值为FX(∞)=1。

如上图是CDF的一个例子。在点x1处的概率为P(X=x1)=FX(x1)−FX(x1−)，由此可见上图中P(X=0)=1。

结合贝叶斯公式，有

FX|L(x|Li)=P(X≤x|L=Li)=P(X≤x,L=Li)P(L=Li)

FX|L(x|Li)表示的是已知L=Li的情况下的CDF。

概率密度函数Probability Density Functions

对CDF求导就可以得到概率密度函数PDF。

fX(x)=dFX(x)dx

PDF不可能输出负值，因为CDF是一个非递减的函数。如果CDF像上图一样非连续，那么PDF在非连续点处的值就是一个脉冲（Dirac impulse）。

按照PDF的定义，有

P(a<X≤b)=FX(x)|ba=∫bafX(x)dx

在x点处的的概率为

P(x)=∫xx−dxfX(x)dx≈fX(x)dx

概率质量函数Probability Mass Function

如果概率模型的随机变量X是离散的，该概率模型的PDF将会如上图一样，只会在特定的值上出现脉冲，其余的值为0。这种情况用PMF就能表示，PMF是一个离散函数，只需要记录某点上的概率

pX(xj)=P(X=xj)

上面的例子用PMF来表示如下图

联合分布随机变量Jointly Distributed Random Variables

定义

概率模型通常都有多个随机变量，如下是有两个随机变量X与Y的概率模型的CDF

FX,Y(x,y)=P(X≤x,Y≤y)

对应的PDF为

fX,Y(x,y)=∂2FX,Y(x,y)∂x∂y

单边PDF fX(x)的定义就是随机变量X的PDF，它跟联合密度函数fX,Y(x,y)之间的关系是

fX(x)=∫∞−∞fX,Y(x,y)dy

同样，fY(y)也有这种关系。

概率表达

在点(x,y)上的概率为

P(x,y)≈fX,Y(x,y)dxdy

贝叶斯规则

在已知Y=y（事件B）的情况下，发生X=x（事件A）的概率为

P(A|B)=P(X=x|Y=y)=FX|Y(X=x|Y=y)

同时又有

P(A|B)=P(A∩B)P(B)=P(X=x,Y=y)P(Y=y)=fX,Y(x,y)dxdyfY(y)dy

fX|Y(x|y)=dFX|Y(X=x,Y=y)dx=fX,Y(x,y)dxdyfY(y)dydx=fX,Y(x,y)fY(y)

进一步推导还能得到

P(B|A)=fX,Y(x,y)dxdyfX(x)dx=fX,Y(x,y)dyfX(x)=fX|Y(x|y)fY(y)dyfX(x)=fX|Y(x|y)P(Y=y)fX(x)=fX|Y(x|y)P(B)fX(x)

独立事件

如果包含随机变量X与Y的联合分布的CDF或者PDF满足如下条件，则X与Y所属的事件相互独立

f_{X,Y}(x,y) = f_X(x)f_Y(y)

F_{X,Y}(x,y) = F_X(x)F_Y(y)

期望（Expectations）、矩（Moments）以及方差（Variance）

期望

The expectation — also termed the expected or mean or average value, or the first-moment — of the real-valued random variable X is denoted by E[X] or \overline{X} or \mu_X, and defined as

E[X] = \overline{X} = \mu_X = \displaystyle{\int_{\infty}^{\infty}xf_X(x)dx}

期望具有线性性质

\begin{align*}E[X+Y] &=\int_{-\infty}^{\infty}xf_{X+Y}(x)dx\\ &=\int_{-\infty}^{\infty}x\Big(f_X(x)+f_Y(x)\Big)dx\\ &=\int_{-\infty}^{\infty}xf_X(x)dx+\int_{-\infty}^{\infty}xf_Y(x)dx\\ &=E[X]+E[Y] \end{align*}

方差

The variance or centered second-moment of the random variable X is denoted by \sigma^2 and defined as

\begin{align*}\sigma^2 &=E[(X-\mu_X)^2]\\ &= E[X^2-2X\mu_X+\mu_X^2]\\ &= E[X^2]-2\mu_XE[X]+\mu_X^2\\ &= E[X^2]-2\mu_X^2+\mu_X^2\\ &= E[X^2]-\mu_X^2 \end{align*}

We refer to E[X2] as the second-moment of X.

贝叶斯规则

我们这里主要是为了推导得到一条公式

\color{red}{E[X] = E_{Y}[E_{X|Y}[X|Y]]}

其中E_{X|Y}[X|Y]，即E[X|Y]表示是已知随机变量Y所代表的事件发生的情况下，随机变量X的期望值。按照期望的定义有如下公式

\begin{align*} E[X|Y] &= \int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\\ &=\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\\ &=g(y) \end{align*}

因此E[X|Y]是一个以y为变量的函数，我们可以认为是：在Y=y的前提下，随机变量X的期望值是与y有关的。

证明：

\begin{align*} E_{Y}[E_{X|Y}[X|Y]] &=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\\ &= \int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\right\}f_Y(y)dy\\ &=\int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\right\}f_Y(y)dy\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xf_{X,Y}(x,y)dxdy\\ &=\int_{-\infty}^{\infty}x\int_{-\infty}^{\infty}f_{X,Y}(x,y)dydx\\ &=\int_{-\infty}^{\infty}xf_X(x)dx\\ &=E[X] \end{align*}

这说明我们在不知道f_X(x)的情况下，通过f_Y(y)以及g(y)就能得到随机变量X的期望值。

独立事件

有两个随机变量分别为Y,Z，令X=h(Y,Z)，那么X也是一个随机变量，其期望为E[X]。现假设h(y,z) = g(y)\ell(z)，并且Y与Z相互独立，因此有

\begin{align*} E[X]&= E[g(y)\ell(z)] \\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y,Z}(y,z)dydz\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y}(y)f_{Z}(z)dydz\\ &=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\int_{-\infty}^{\infty}\ell(z)f_Z(z)dz\\ &=E[g(y)]E[\ell(z)] \end{align*}

相关性与协方差 correlation and covariance

在对随机变量进行处理时，很多情况下都无法知道该随机变量的PDF，此时我们只能通过expectation以及variance对随机变量进行描述，expectation代表的是随机变量的location，即随机变量的中心点；variance代表的是随机变量的spread，即随机变量的扩散程度。这两个值我们能通过对随机变量的反复实验然后求得。

而对于联合分布的随机变量(X,Y)，我们能得到其location为(E[X],E[Y])，不过spread就比较难表达了，因为\sigma_X以及\sigma_Y都只是单个随机变量的方差，而X与Y之间也有可能存在某种相关关系，因此联合分布的spread不应该把随机变量分开进行单独讨论。

联合随机变量的location与spread

为了表达联合分布的spread，下面我们假设有一个随机变量Z，有

Z=\alpha X + \beta Y

其中\alpha与\beta分别为随机变量X与Y的系数，可以选任意常数。上面关于随机变量Z的式子也能看作是一条关于X与Y的直线，当选取固定的Z后，在X,Y平面上就能得到一条直线，而通过改变Z就能覆盖整个X,Y平面。

经过该直线并垂直于XY平面的平面与联合PDF曲面相交所得的曲线，展示的就是当Z取某个固定值时，随机变量X与Y的取值的概率。对该曲线进行积分能得到Z取该固定值的概率。比如说

P_Z(z=0) = \displaystyle{\int_{\alpha x+\beta y=0}f_{X,Y}(x,y)dxdy}

不过这并不是我们要讨论的重点。

对于随机变量Z，有expectation为

E[Z] = E[\alpha X + \beta Y] = \alpha E[X] + \beta E[Y]

有variance为

\begin{align*} \sigma_Z^2 &= E[(Z-E[Z])^2]\\ &=E[Z^2-2E[Z]Z+(E[Z])^2]\\ &=E[Z^2]-2(E[Z])^2+(E[Z])^2\\ &=E[Z^2]-(E[Z])^2\\ &=E[(\alpha X+\beta Y)^2]-(\alpha E[X]+\beta E[Y])^2\\ &=E[\alpha^2X^2+2\alpha\beta XY+\beta^2Y^2]-\Big\{\alpha^2(E[X])^2+\beta^2(E[Y])^2+2\alpha\beta E[X]E[Y]\Big\}\\ &=\alpha^2 E[X^2]+2\alpha\beta E[XY]+\beta^2E[Y^2]-\alpha^2(E[X])^2-2\alpha\beta E[x]E[Y]-\beta^2(E[Y])^2\\ &=\alpha^2\Big\{E[X^2]-(E[X])^2\Big\}+\beta^2\Big\{E[Y^2]-(E[Y])^2\Big\}+2\alpha\beta\Big\{E[XY]-E[X]E[Y]\Big\}\\ &=\alpha^2\Big\{E[(X-E[X])^2]\Big\}+\beta^2\Big\{E[(Y-E[Y])^2]\Big\}+2\alpha\beta\Big\{E[(X-E[X])(Y-E[Y])]\Big\}\\ &=\alpha^2\sigma_X^2+\beta^2\sigma_Y^2+2\alpha\beta\sigma_{X,Y} \qquad letting\ \sigma_{X,Y}=E[(X-E[X])(Y-E[Y])] \end{align*}

其中\sigma_{X,Y}被称为covariance，记为C_{X,Y}或者cov(X,Y)有

\color{red}{\sigma_{X,Y} =C_{X,Y}= E[(X-E[X])(Y-E[Y])] = E[XY]-E[X]E[Y]}

E[XY]被称为correlation，记为R_{X,Y}。

\color{red}{R_{X,Y} = E[XY]}

根据前面的推导，只要我们知道\sigma_X^2,\sigma_Y^2,\sigma_{X,Y}的值，就能得到联合随机变量的spread。这其中只有\sigma_{X,Y}是新出现的概念。另外，从前面的推导中我们又能得知\sigma_{X,Y}可以通过R_{X,Y}计算得到。

概率模型

符号定义

贝叶斯规则Bayes'Rule

贝叶斯公式

独立事件

随机变量Random Variables

概率的相关函数

累计分布函数Cumulative Distribution Functions

概率密度函数Probability Density Functions

概率质量函数Probability Mass Function

联合分布随机变量Jointly Distributed Random Variables

定义

概率表达

贝叶斯规则

独立事件

期望（Expectations）、矩（Moments）以及方差（Variance）

期望

方差

贝叶斯规则

独立事件

相关性与协方差 correlation and covariance

联合随机变量的location与spread

相关系数correlation coefficient \rho

\rho的定义

\rho其实就相当于对covariance进行了标准化。

\rho的实际意义

相关性的向量空间分析

从随机变量到向量空间的转换规则

实用的向量空间