分享

概率模型

 莫为天下先 2022-10-13 发布于湖南

本文讨论的是信号处理中用到的概率模型(Probabilistic Models),主要目的是为了了解概率模型相关的基础概念,以供后续文章展开更为深入的讨论。

符号定义

首先规定概率模型所采用的符号。概率模型所设计的基础符号分为三个部分:

1. Sample Space  样本空间,也就是一个概率模型的总空间,用Ψ表示,采样空间内包含了所有可能的outcome(输出)ψ。每一次experiment(实验)能产生一个输出

2. Event Algebra  事件代数,通常简称为event(事件),表示的是采样空间内某些输出的集合。如果在实验中产生的一个输出属于某个事件,我们可以理解为发生了该事件。按照这种说法,Ψ是一个必然事件,是一个不可能事件。

3. Probability Measure  概率测度。对于事件A,其概率为P(A)

    (a) P(A)0

    (b) P(Ψ)=1

    (c) AB=P(AB)=P(A)+P(B)

画图能使得概率模型更容易理解

ProbabilityModel

贝叶斯规则Bayes'Rule

贝叶斯公式

有事件A与B,两者的概率分别为P(A)P(B),它们在样本空间有如下表示

image

在事件B已发生的情况下,事件A出现的概率记为P(A|B)。对照上方的样本空间,可以发现事件P(A|B)就是事件AB占事件B的比率。

P(A|B)P(AB)P(B),P(B)0

反过来有:

P(AB)=P(A|B)P(B)

同理也能得到

P(AB)=P(B|A)P(A)

把上面两个式子组合起来就能得到贝叶斯的一个公式

P(B|A)=P(A|B)P(B)P(A)

独立事件

如果事件A与B的概率满足以下条件,我们就认为两者相互独立

P(A|B)=P(A)orP(AB)=P(A)P(B)

即事件A在整个样本空间内的概率为P(A),事件A在样本空间B内的概率仍然是P(A)

image

随机变量Random Variables

由于输出ψ只是集合Ψ中的元素,为了方便进行数学上的分析,我们需要把ψ映射到实数X(ψ),该实数被称为随机变量,通常称为随机变量X,请注意这是一个变量

RandomVariables

Outcome(输出)有可能是离散的,如抛一次硬币只能是正面或者反面;也有可能是连续的,如在记录某时刻的温度时,温度可以是某个温度区间内的任何值。因此有以下随机变量

离散随机变量(Discrete Random Variable)

X={1,heads0,tails

连续随机变量(Continuous Random Variable)

X=the exact temprature detected at 12:00 am

上面分别是离散以及连续输出到随机变量X的映射,X表示的是一个可能的取值,如上面的离散的情况取值可能为0或者1,而连续的情况取值则可能为区间上的任意一个值。

概率的相关函数

累计分布函数Cumulative Distribution Functions

累计分布函数(CDF)的输出是从到变量x的累计概率

FX(x)=P(Xx)

因此有

P(a<Xb)=FX(b)FX(a)

CDF在负无穷端的值为FX()=0,在正无穷端的值为FX()=1

CDF

如上图是CDF的一个例子。在点x1处的概率为P(X=x1)=FX(x1)FX(x1),由此可见上图中P(X=0)=1

结合贝叶斯公式,有

FX|L(x|Li)=P(Xx|L=Li)=P(Xx,L=Li)P(L=Li)

FX|L(x|Li)表示的是已知L=Li的情况下的CDF。

概率密度函数Probability Density Functions

对CDF求导就可以得到概率密度函数PDF。

fX(x)=dFX(x)dx

PDF不可能输出负值,因为CDF是一个非递减的函数。如果CDF像上图一样非连续,那么PDF在非连续点处的值就是一个脉冲(Dirac impulse)。

image

按照PDF的定义,有

P(a<Xb)=FX(x)|ba=bafX(x)dx

x点处的的概率为

P(x)=xxdxfX(x)dxfX(x)dx

概率质量函数Probability Mass Function

如果概率模型的随机变量X是离散的,该概率模型的PDF将会如上图一样,只会在特定的值上出现脉冲,其余的值为0。这种情况用PMF就能表示,PMF是一个离散函数,只需要记录某点上的概率

pX(xj)=P(X=xj)

上面的例子用PMF来表示如下图

image

联合分布随机变量Jointly Distributed Random Variables

定义

概率模型通常都有多个随机变量,如下是有两个随机变量X与Y的概率模型的CDF

FX,Y(x,y)=P(Xx,Yy)

对应的PDF为

fX,Y(x,y)=2FX,Y(x,y)xy

Gaussian3D

单边PDF fX(x)的定义就是随机变量X的PDF,它跟联合密度函数fX,Y(x,y)之间的关系是

fX(x)=fX,Y(x,y)dy

同样,fY(y)也有这种关系。

概率表达

在点(x,y)上的概率为

P(x,y)fX,Y(x,y)dxdy

贝叶斯规则

在已知Y=y(事件B)的情况下,发生X=x(事件A)的概率为

P(A|B)=P(X=x|Y=y)=FX|Y(X=x|Y=y)

同时又有

P(A|B)=P(AB)P(B)=P(X=x,Y=y)P(Y=y)=fX,Y(x,y)dxdyfY(y)dy

如果我们假设随机变量Y已经确定Y=y,那么P(X|Y=y)=FX|Y(X|Y=y)就是一个关于随机变量X的函数,该函数对x求导得到的是:已知Y=y的情况下,随机变量X的概率密度函数fX|Y(X|Y=y),有下面的式子

fX|Y(x|y)=dFX|Y(X=x,Y=y)dx=fX,Y(x,y)dxdyfY(y)dydx=fX,Y(x,y)fY(y)

进一步推导还能得到

P(B|A)=fX,Y(x,y)dxdyfX(x)dx=fX,Y(x,y)dyfX(x)=fX|Y(x|y)fY(y)dyfX(x)=fX|Y(x|y)P(Y=y)fX(x)=fX|Y(x|y)P(B)fX(x)

独立事件

如果包含随机变量XY的联合分布的CDF或者PDF满足如下条件,则XY所属的事件相互独立

f_{X,Y}(x,y) = f_X(x)f_Y(y)

F_{X,Y}(x,y) = F_X(x)F_Y(y)

期望(Expectations)、矩(Moments)以及方差(Variance)

期望

The expectation — also termed the expected or mean or average value, or the first-moment — of the real-valued random variable X is denoted by E[X] or \overline{X} or \mu_X, and defined as

E[X] = \overline{X} = \mu_X = \displaystyle{\int_{\infty}^{\infty}xf_X(x)dx}

期望具有线性性质

\begin{align*}E[X+Y] &=\int_{-\infty}^{\infty}xf_{X+Y}(x)dx\\ &=\int_{-\infty}^{\infty}x\Big(f_X(x)+f_Y(x)\Big)dx\\ &=\int_{-\infty}^{\infty}xf_X(x)dx+\int_{-\infty}^{\infty}xf_Y(x)dx\\ &=E[X]+E[Y] \end{align*}

方差

The variance or centered second-moment of the random variable X is denoted by \sigma^2 and defined as

\begin{align*}\sigma^2 &=E[(X-\mu_X)^2]\\ &= E[X^2-2X\mu_X+\mu_X^2]\\ &= E[X^2]-2\mu_XE[X]+\mu_X^2\\ &= E[X^2]-2\mu_X^2+\mu_X^2\\ &= E[X^2]-\mu_X^2 \end{align*}

We refer to E[X2] as the second-moment of X.

贝叶斯规则

我们这里主要是为了推导得到一条公式

\color{red}{E[X] = E_{Y}[E_{X|Y}[X|Y]]}

其中E_{X|Y}[X|Y],即E[X|Y]表示是已知随机变量Y所代表的事件发生的情况下,随机变量X的期望值。按照期望的定义有如下公式

\begin{align*} E[X|Y] &= \int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\\ &=\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\\ &=g(y) \end{align*}

因此E[X|Y]是一个以y为变量的函数,我们可以认为是:在Y=y的前提下,随机变量X的期望值是与y有关的。

证明

\begin{align*} E_{Y}[E_{X|Y}[X|Y]] &=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\\ &= \int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\right\}f_Y(y)dy\\ &=\int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\right\}f_Y(y)dy\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xf_{X,Y}(x,y)dxdy\\ &=\int_{-\infty}^{\infty}x\int_{-\infty}^{\infty}f_{X,Y}(x,y)dydx\\ &=\int_{-\infty}^{\infty}xf_X(x)dx\\ &=E[X] \end{align*}

这说明我们在不知道f_X(x)的情况下,通过f_Y(y)以及g(y)就能得到随机变量X的期望值。

独立事件

有两个随机变量分别为Y,Z,令X=h(Y,Z),那么X也是一个随机变量,其期望为E[X]。现假设h(y,z) = g(y)\ell(z),并且YZ相互独立,因此有

\begin{align*} E[X]&= E[g(y)\ell(z)] \\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y,Z}(y,z)dydz\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y}(y)f_{Z}(z)dydz\\ &=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\int_{-\infty}^{\infty}\ell(z)f_Z(z)dz\\ &=E[g(y)]E[\ell(z)] \end{align*}

相关性与协方差 correlation and covariance

在对随机变量进行处理时,很多情况下都无法知道该随机变量的PDF,此时我们只能通过expectation以及variance对随机变量进行描述,expectation代表的是随机变量的location,即随机变量的中心点;variance代表的是随机变量的spread,即随机变量的扩散程度。这两个值我们能通过对随机变量的反复实验然后求得。

而对于联合分布的随机变量(X,Y),我们能得到其location为(E[X],E[Y]),不过spread就比较难表达了,因为\sigma_X以及\sigma_Y都只是单个随机变量的方差,而XY之间也有可能存在某种相关关系,因此联合分布的spread不应该把随机变量分开进行单独讨论。

联合随机变量的location与spread

为了表达联合分布的spread,下面我们假设有一个随机变量Z,有

Z=\alpha X + \beta Y

其中\alpha\beta分别为随机变量XY的系数,可以选任意常数。上面关于随机变量Z的式子也能看作是一条关于XY的直线,当选取固定的Z后,在X,Y平面上就能得到一条直线,而通过改变Z就能覆盖整个X,Y平面。

Gaussian3D

经过该直线并垂直于XY平面的平面与联合PDF曲面相交所得的曲线,展示的就是当Z取某个固定值时,随机变量XY的取值的概率。对该曲线进行积分能得到Z取该固定值的概率。比如说

P_Z(z=0) = \displaystyle{\int_{\alpha x+\beta y=0}f_{X,Y}(x,y)dxdy}

不过这并不是我们要讨论的重点。

对于随机变量Z,有expectation为

E[Z] = E[\alpha X + \beta Y] = \alpha E[X] + \beta E[Y]

有variance为

\begin{align*} \sigma_Z^2 &= E[(Z-E[Z])^2]\\ &=E[Z^2-2E[Z]Z+(E[Z])^2]\\ &=E[Z^2]-2(E[Z])^2+(E[Z])^2\\ &=E[Z^2]-(E[Z])^2\\ &=E[(\alpha X+\beta Y)^2]-(\alpha E[X]+\beta E[Y])^2\\ &=E[\alpha^2X^2+2\alpha\beta XY+\beta^2Y^2]-\Big\{\alpha^2(E[X])^2+\beta^2(E[Y])^2+2\alpha\beta E[X]E[Y]\Big\}\\ &=\alpha^2 E[X^2]+2\alpha\beta E[XY]+\beta^2E[Y^2]-\alpha^2(E[X])^2-2\alpha\beta E[x]E[Y]-\beta^2(E[Y])^2\\ &=\alpha^2\Big\{E[X^2]-(E[X])^2\Big\}+\beta^2\Big\{E[Y^2]-(E[Y])^2\Big\}+2\alpha\beta\Big\{E[XY]-E[X]E[Y]\Big\}\\ &=\alpha^2\Big\{E[(X-E[X])^2]\Big\}+\beta^2\Big\{E[(Y-E[Y])^2]\Big\}+2\alpha\beta\Big\{E[(X-E[X])(Y-E[Y])]\Big\}\\ &=\alpha^2\sigma_X^2+\beta^2\sigma_Y^2+2\alpha\beta\sigma_{X,Y} \qquad letting\ \sigma_{X,Y}=E[(X-E[X])(Y-E[Y])] \end{align*}

其中\sigma_{X,Y}被称为covariance,记为C_{X,Y}或者cov(X,Y)

\color{red}{\sigma_{X,Y} =C_{X,Y}= E[(X-E[X])(Y-E[Y])] = E[XY]-E[X]E[Y]}

E[XY]被称为correlation,记为R_{X,Y}

\color{red}{R_{X,Y} = E[XY]}

根据前面的推导,只要我们知道\sigma_X^2,\sigma_Y^2,\sigma_{X,Y}的值,就能得到联合随机变量的spread。这其中只有\sigma_{X,Y}是新出现的概念。另外,从前面的推导中我们又能得知\sigma_{X,Y}可以通过R_{X,Y}计算得到。

相关系数correlation coefficient \rho

\rho的定义

前面已经得到随机变量Z的variance为

\sigma_Z^2 = \alpha^2\sigma_X^2+\beta^2\sigma_Y^2+2\alpha\beta\sigma_{X,Y}

我们这里把\sigma_Z^2作为纵轴,\alpha作为横轴,其余参数当成常量,得到一个一元二次方程。

correlation_coeff

由于variance必定大于0,因此有

\frac{-(b^2-4ac)}{4a}=\frac{-[(2\beta\sigma_{X,Y})^2-4\sigma_X^2 \beta^2\sigma_Y^2]}{4\beta^2\sigma_X^2}=\frac{\beta^2\sigma_X^2\sigma_Y^2-\beta^2\sigma_{X,Y}^2}{\sigma_X^2}\geq 0

整理可得到

\color{red}{|\rho| = \left|\frac{\sigma_{X,Y}}{\sigma_X \sigma_Y}\right|\leq 1}

\rho就是correlation coefficient,虽然我们把它叫做correlation coefficient,不过从上面的式子看来,\rho跟covariance的关系更密切。

\rho其实就相当于对covariance进行了标准化。

随机变量标准化后的随机变量的expectation为0,variance为1,即

V = \frac{X-\mu_X}{\sigma_X},\qquad W = \frac{Y=\mu_X}{\sigma_Y}

expectation以及variance的变化如下

E[V] = E\left[\frac{X-\mu_X}{\sigma_X}\right] = \frac{E[X]-\mu_X}{\sigma_X}=0

\sigma_V^2=E[(V-E[V])^2]=E[V^2]=E\left[\frac{(X-\mu_X)^2}{\sigma_X^2}\right]=E\left[\frac{\sigma_X^2}{\sigma_X^2} \right ]=1

correlation coefficient的变化如下

\begin{align*}\sigma_{V,W}&=E[VW]-E[V]E[W]=E[VW]\\ &=E\left[\frac{X-\mu_X}{\sigma_X}\cdot\frac{Y-\mu_Y}{\sigma_Y}\right]\\ &=E\left[\frac{XY-X\mu_Y-Y\mu_X+\mu_X\mu_Y}{\sigma_X\sigma_Y}\right]\\ &=\frac{E[XY]-E[X]E[Y]}{\sigma_X\sigma_Y}\\ &=\frac{\sigma_{X,Y}}{\sigma_X\sigma_Y}\end{align*}

这也证明了即使随机变量加上或者乘以一个常数,这并不会改变其correlation coefficient。

\rho的实际意义

我们容易知道correlation的值E[XY]如果大于0,则表明XY倾向于有相同的符号;如果correlation的值小于0,则表明XY倾向于有相反的符号。那么对于\sigma_{X,Y} = E[(X-\mu_X)(Y-\mu_Y)],如果大于0,则表明X-\mu_XY-\mu_Y倾向于有相同的符号,当X=Y时,\sigma_{X,X}=\sigma_X^2,反之亦然。

同理,\rho作为covariance的标准化的值

  1. 如果\rho>0则表明X-\mu_XY-\mu_Y倾向于有相同的符号
  2. 如果\rho越接近1,XY之间会有更紧密的关系(正相关)
  3. 反之,如果\rho越接近-1,XY之间的关系趋于相反(负相关)
  4. 如果\rho=0,则有\sigma_{X,Y}=0E[XY]=E[X]E[Y],表明XY相互独立

相关性的向量空间分析

从随机变量到向量空间的转换规则

我们可以把随机变量看作向量,把correlation看作向量的内积,内积用尖括号来表示。因此有

<\textbf{X}, \textbf{Y}> = E[XY] = R_{X,Y}

内积满足交换律以及分配律

<\textbf{X},\textbf{Y}> = <\textbf{Y}, \textbf{X}>

<\textbf{X},a_1 \textbf{Y}_1+a_2 \textbf{Y}_2>=a_1<\textbf{X},\textbf{Y}_1>+a_2<\textbf{X},\textbf{Y}_2>

如果两个向量正交,那么他们的内积为0

<\textbf{X},\textbf{Y}>=E[XY]=0

向量的长度,也就是向量的模为

\left\|\textbf{X}\right\|=\sqrt{<\textbf{X},\textbf{X}>}=\sqrt{E[X^2]}

实用的向量空间

下面我们令向量\widetilde{\textbf{X}}以及\widetilde{\textbf{Y}}分别为

\widetilde{\textbf{X}}=X-\mu_X ,\qquad \widetilde{\textbf{Y}}=Y-\mu_Y

这两个向量的模分别为

||\widetilde{\textbf{X}}||=\sqrt{E[(X-\mu_X)^2]}=\sigma_X,\qquad ||\widetilde{\textbf{Y}}||=\sqrt{E[(Y-\mu_Y)^2]}=\sigma_Y

那么这两个向量的内积就是

<\widetilde{\textbf{X}}, \widetilde{\textbf{Y}}>=E[(X-\mu_X)(Y-\mu_Y)]=\sigma_{X,Y}

按照向量的定义,内积与模之间有如下关系

<\widetilde{\textbf{X}},\widetilde{\textbf{Y}}>=||\widetilde{\textbf{X}}|| \cdot||\widetilde{\textbf{Y}}||\cdot cos(\theta)

\sigma_{X,Y}=\sigma_X \sigma_Y cos(\theta)

其中\theta为向量\widetilde{\textbf{X}}与向量\widetilde{\textbf{Y}}之间的夹角。根据前面已得到的结论,我们得知\rho=cos(\theta),而又由于\rho满足-1\leq \rho \leq 1,因此把随机变量推广到向量空间的这种做法正好合适。

image

在该这里假设的向量空间中,\omega_{X,Y}=0表明\widetilde{\textbf{X}}与向量\widetilde{\textbf{Y}}正交。

Reference:

Alan V. Oppenheim: Signals, Systems and Inference, Chapter 7: Probabilistic Models

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多