本文讨论的是信号处理中用到的概率模型(Probabilistic Models),主要目的是为了了解概率模型相关的基础概念,以供后续文章展开更为深入的讨论。 符号定义首先规定概率模型所采用的符号。概率模型所设计的基础符号分为三个部分: 1. Sample Space 样本空间,也就是一个概率模型的总空间,用Ψ表示,采样空间内包含了所有可能的outcome(输出)ψ。每一次experiment(实验)能产生一个输出 2. Event Algebra 事件代数,通常简称为event(事件),表示的是采样空间内某些输出的集合。如果在实验中产生的一个输出属于某个事件,我们可以理解为发生了该事件。按照这种说法,Ψ是一个必然事件,∅是一个不可能事件。 3. Probability Measure 概率测度。对于事件A,其概率为P(A)。 (a) P(A)≥0 (b) P(Ψ)=1 (c) A∩B=∅⇔P(A∪B)=P(A)+P(B) 画图能使得概率模型更容易理解 贝叶斯规则Bayes'Rule贝叶斯公式有事件A与B,两者的概率分别为P(A)与P(B),它们在样本空间有如下表示 在事件B已发生的情况下,事件A出现的概率记为P(A|B)。对照上方的样本空间,可以发现事件P(A|B)就是事件A∩B占事件B的比率。 P(A|B)≜P(A∩B)P(B),P(B)≠0 反过来有: P(A∩B)=P(A|B)P(B) 同理也能得到 P(A∩B)=P(B|A)P(A) 把上面两个式子组合起来就能得到贝叶斯的一个公式 P(B|A)=P(A|B)P(B)P(A) 独立事件如果事件A与B的概率满足以下条件,我们就认为两者相互独立 P(A|B)=P(A)orP(A∩B)=P(A)P(B) 即事件A在整个样本空间内的概率为P(A),事件A在样本空间B内的概率仍然是P(A)。 随机变量Random Variables由于输出ψ只是集合Ψ中的元素,为了方便进行数学上的分析,我们需要把ψ映射到实数X(ψ),该实数被称为随机变量,通常称为随机变量X,请注意这是一个变量。 Outcome(输出)有可能是离散的,如抛一次硬币只能是正面或者反面;也有可能是连续的,如在记录某时刻的温度时,温度可以是某个温度区间内的任何值。因此有以下随机变量 离散随机变量(Discrete Random Variable) X={1,heads0,tails 连续随机变量(Continuous Random Variable) X=the exact temprature detected at 12:00 am 上面分别是离散以及连续输出到随机变量X的映射,X表示的是一个可能的取值,如上面的离散的情况取值可能为0或者1,而连续的情况取值则可能为区间上的任意一个值。 概率的相关函数累计分布函数Cumulative Distribution Functions累计分布函数(CDF)的输出是从−∞到变量x的累计概率 FX(x)=P(X≤x) 因此有 P(a<X≤b)=FX(b)–FX(a) CDF在负无穷端的值为FX(−∞)=0,在正无穷端的值为FX(∞)=1。 如上图是CDF的一个例子。在点x1处的概率为P(X=x1)=FX(x1)−FX(x1−),由此可见上图中P(X=0)=1。 结合贝叶斯公式,有 FX|L(x|Li)=P(X≤x|L=Li)=P(X≤x,L=Li)P(L=Li) FX|L(x|Li)表示的是已知L=Li的情况下的CDF。 概率密度函数Probability Density Functions对CDF求导就可以得到概率密度函数PDF。 fX(x)=dFX(x)dx PDF不可能输出负值,因为CDF是一个非递减的函数。如果CDF像上图一样非连续,那么PDF在非连续点处的值就是一个脉冲(Dirac impulse)。 按照PDF的定义,有 P(a<X≤b)=FX(x)|ba=∫bafX(x)dx 在x点处的的概率为 P(x)=∫xx−dxfX(x)dx≈fX(x)dx 概率质量函数Probability Mass Function如果概率模型的随机变量X是离散的,该概率模型的PDF将会如上图一样,只会在特定的值上出现脉冲,其余的值为0。这种情况用PMF就能表示,PMF是一个离散函数,只需要记录某点上的概率 pX(xj)=P(X=xj) 上面的例子用PMF来表示如下图 联合分布随机变量Jointly Distributed Random Variables定义概率模型通常都有多个随机变量,如下是有两个随机变量X与Y的概率模型的CDF FX,Y(x,y)=P(X≤x,Y≤y) 对应的PDF为 fX,Y(x,y)=∂2FX,Y(x,y)∂x∂y 单边PDF fX(x)的定义就是随机变量X的PDF,它跟联合密度函数fX,Y(x,y)之间的关系是 fX(x)=∫∞−∞fX,Y(x,y)dy 同样,fY(y)也有这种关系。 概率表达在点(x,y)上的概率为 P(x,y)≈fX,Y(x,y)dxdy 贝叶斯规则在已知Y=y(事件B)的情况下,发生X=x(事件A)的概率为 P(A|B)=P(X=x|Y=y)=FX|Y(X=x|Y=y) 同时又有 P(A|B)=P(A∩B)P(B)=P(X=x,Y=y)P(Y=y)=fX,Y(x,y)dxdyfY(y)dy 如果我们假设随机变量Y已经确定Y=y,那么P(X|Y=y)=FX|Y(X|Y=y)就是一个关于随机变量X的函数,该函数对x求导得到的是:已知Y=y的情况下,随机变量X的概率密度函数fX|Y(X|Y=y),有下面的式子 fX|Y(x|y)=dFX|Y(X=x,Y=y)dx=fX,Y(x,y)dxdyfY(y)dydx=fX,Y(x,y)fY(y) 进一步推导还能得到 P(B|A)=fX,Y(x,y)dxdyfX(x)dx=fX,Y(x,y)dyfX(x)=fX|Y(x|y)fY(y)dyfX(x)=fX|Y(x|y)P(Y=y)fX(x)=fX|Y(x|y)P(B)fX(x) 独立事件如果包含随机变量X与Y的联合分布的CDF或者PDF满足如下条件,则X与Y所属的事件相互独立 f_{X,Y}(x,y) = f_X(x)f_Y(y) F_{X,Y}(x,y) = F_X(x)F_Y(y) 期望(Expectations)、矩(Moments)以及方差(Variance)期望The expectation — also termed the expected or mean or average value, or the first-moment — of the real-valued random variable X is denoted by E[X] or \overline{X} or \mu_X, and defined as E[X] = \overline{X} = \mu_X = \displaystyle{\int_{\infty}^{\infty}xf_X(x)dx} 期望具有线性性质 \begin{align*}E[X+Y] &=\int_{-\infty}^{\infty}xf_{X+Y}(x)dx\\ &=\int_{-\infty}^{\infty}x\Big(f_X(x)+f_Y(x)\Big)dx\\ &=\int_{-\infty}^{\infty}xf_X(x)dx+\int_{-\infty}^{\infty}xf_Y(x)dx\\ &=E[X]+E[Y] \end{align*} 方差The variance or centered second-moment of the random variable X is denoted by \sigma^2 and defined as \begin{align*}\sigma^2 &=E[(X-\mu_X)^2]\\ &= E[X^2-2X\mu_X+\mu_X^2]\\ &= E[X^2]-2\mu_XE[X]+\mu_X^2\\ &= E[X^2]-2\mu_X^2+\mu_X^2\\ &= E[X^2]-\mu_X^2 \end{align*} We refer to E[X2] as the second-moment of X. 贝叶斯规则我们这里主要是为了推导得到一条公式 \color{red}{E[X] = E_{Y}[E_{X|Y}[X|Y]]} 其中E_{X|Y}[X|Y],即E[X|Y]表示是已知随机变量Y所代表的事件发生的情况下,随机变量X的期望值。按照期望的定义有如下公式 \begin{align*} E[X|Y] &= \int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\\ &=\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\\ &=g(y) \end{align*} 因此E[X|Y]是一个以y为变量的函数,我们可以认为是:在Y=y的前提下,随机变量X的期望值是与y有关的。 证明: \begin{align*} E_{Y}[E_{X|Y}[X|Y]] &=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\\ &= \int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\right\}f_Y(y)dy\\ &=\int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\right\}f_Y(y)dy\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xf_{X,Y}(x,y)dxdy\\ &=\int_{-\infty}^{\infty}x\int_{-\infty}^{\infty}f_{X,Y}(x,y)dydx\\ &=\int_{-\infty}^{\infty}xf_X(x)dx\\ &=E[X] \end{align*} 这说明我们在不知道f_X(x)的情况下,通过f_Y(y)以及g(y)就能得到随机变量X的期望值。 独立事件有两个随机变量分别为Y,Z,令X=h(Y,Z),那么X也是一个随机变量,其期望为E[X]。现假设h(y,z) = g(y)\ell(z),并且Y与Z相互独立,因此有 \begin{align*} E[X]&= E[g(y)\ell(z)] \\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y,Z}(y,z)dydz\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y}(y)f_{Z}(z)dydz\\ &=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\int_{-\infty}^{\infty}\ell(z)f_Z(z)dz\\ &=E[g(y)]E[\ell(z)] \end{align*} 相关性与协方差 correlation and covariance在对随机变量进行处理时,很多情况下都无法知道该随机变量的PDF,此时我们只能通过expectation以及variance对随机变量进行描述,expectation代表的是随机变量的location,即随机变量的中心点;variance代表的是随机变量的spread,即随机变量的扩散程度。这两个值我们能通过对随机变量的反复实验然后求得。 而对于联合分布的随机变量(X,Y),我们能得到其location为(E[X],E[Y]),不过spread就比较难表达了,因为\sigma_X以及\sigma_Y都只是单个随机变量的方差,而X与Y之间也有可能存在某种相关关系,因此联合分布的spread不应该把随机变量分开进行单独讨论。 联合随机变量的location与spread为了表达联合分布的spread,下面我们假设有一个随机变量Z,有 Z=\alpha X + \beta Y 其中\alpha与\beta分别为随机变量X与Y的系数,可以选任意常数。上面关于随机变量Z的式子也能看作是一条关于X与Y的直线,当选取固定的Z后,在X,Y平面上就能得到一条直线,而通过改变Z就能覆盖整个X,Y平面。 经过该直线并垂直于XY平面的平面与联合PDF曲面相交所得的曲线,展示的就是当Z取某个固定值时,随机变量X与Y的取值的概率。对该曲线进行积分能得到Z取该固定值的概率。比如说 P_Z(z=0) = \displaystyle{\int_{\alpha x+\beta y=0}f_{X,Y}(x,y)dxdy} 不过这并不是我们要讨论的重点。 对于随机变量Z,有expectation为 E[Z] = E[\alpha X + \beta Y] = \alpha E[X] + \beta E[Y] 有variance为 \begin{align*} \sigma_Z^2 &= E[(Z-E[Z])^2]\\ &=E[Z^2-2E[Z]Z+(E[Z])^2]\\ &=E[Z^2]-2(E[Z])^2+(E[Z])^2\\ &=E[Z^2]-(E[Z])^2\\ &=E[(\alpha X+\beta Y)^2]-(\alpha E[X]+\beta E[Y])^2\\ &=E[\alpha^2X^2+2\alpha\beta XY+\beta^2Y^2]-\Big\{\alpha^2(E[X])^2+\beta^2(E[Y])^2+2\alpha\beta E[X]E[Y]\Big\}\\ &=\alpha^2 E[X^2]+2\alpha\beta E[XY]+\beta^2E[Y^2]-\alpha^2(E[X])^2-2\alpha\beta E[x]E[Y]-\beta^2(E[Y])^2\\ &=\alpha^2\Big\{E[X^2]-(E[X])^2\Big\}+\beta^2\Big\{E[Y^2]-(E[Y])^2\Big\}+2\alpha\beta\Big\{E[XY]-E[X]E[Y]\Big\}\\ &=\alpha^2\Big\{E[(X-E[X])^2]\Big\}+\beta^2\Big\{E[(Y-E[Y])^2]\Big\}+2\alpha\beta\Big\{E[(X-E[X])(Y-E[Y])]\Big\}\\ &=\alpha^2\sigma_X^2+\beta^2\sigma_Y^2+2\alpha\beta\sigma_{X,Y} \qquad letting\ \sigma_{X,Y}=E[(X-E[X])(Y-E[Y])] \end{align*} 其中\sigma_{X,Y}被称为covariance,记为C_{X,Y}或者cov(X,Y)有 \color{red}{\sigma_{X,Y} =C_{X,Y}= E[(X-E[X])(Y-E[Y])] = E[XY]-E[X]E[Y]} E[XY]被称为correlation,记为R_{X,Y}。 \color{red}{R_{X,Y} = E[XY]} 根据前面的推导,只要我们知道\sigma_X^2,\sigma_Y^2,\sigma_{X,Y}的值,就能得到联合随机变量的spread。这其中只有\sigma_{X,Y}是新出现的概念。另外,从前面的推导中我们又能得知\sigma_{X,Y}可以通过R_{X,Y}计算得到。 相关系数correlation coefficient \rho\rho的定义前面已经得到随机变量Z的variance为 \sigma_Z^2 = \alpha^2\sigma_X^2+\beta^2\sigma_Y^2+2\alpha\beta\sigma_{X,Y} 我们这里把\sigma_Z^2作为纵轴,\alpha作为横轴,其余参数当成常量,得到一个一元二次方程。 由于variance必定大于0,因此有 \frac{-(b^2-4ac)}{4a}=\frac{-[(2\beta\sigma_{X,Y})^2-4\sigma_X^2 \beta^2\sigma_Y^2]}{4\beta^2\sigma_X^2}=\frac{\beta^2\sigma_X^2\sigma_Y^2-\beta^2\sigma_{X,Y}^2}{\sigma_X^2}\geq 0 整理可得到 \color{red}{|\rho| = \left|\frac{\sigma_{X,Y}}{\sigma_X \sigma_Y}\right|\leq 1} \rho就是correlation coefficient,虽然我们把它叫做correlation coefficient,不过从上面的式子看来,\rho跟covariance的关系更密切。 \rho其实就相当于对covariance进行了标准化。随机变量标准化后的随机变量的expectation为0,variance为1,即 V = \frac{X-\mu_X}{\sigma_X},\qquad W = \frac{Y=\mu_X}{\sigma_Y} expectation以及variance的变化如下 E[V] = E\left[\frac{X-\mu_X}{\sigma_X}\right] = \frac{E[X]-\mu_X}{\sigma_X}=0 \sigma_V^2=E[(V-E[V])^2]=E[V^2]=E\left[\frac{(X-\mu_X)^2}{\sigma_X^2}\right]=E\left[\frac{\sigma_X^2}{\sigma_X^2} \right ]=1 correlation coefficient的变化如下 \begin{align*}\sigma_{V,W}&=E[VW]-E[V]E[W]=E[VW]\\ &=E\left[\frac{X-\mu_X}{\sigma_X}\cdot\frac{Y-\mu_Y}{\sigma_Y}\right]\\ &=E\left[\frac{XY-X\mu_Y-Y\mu_X+\mu_X\mu_Y}{\sigma_X\sigma_Y}\right]\\ &=\frac{E[XY]-E[X]E[Y]}{\sigma_X\sigma_Y}\\ &=\frac{\sigma_{X,Y}}{\sigma_X\sigma_Y}\end{align*} 这也证明了即使随机变量加上或者乘以一个常数,这并不会改变其correlation coefficient。 \rho的实际意义我们容易知道correlation的值E[XY]如果大于0,则表明X与Y倾向于有相同的符号;如果correlation的值小于0,则表明X与Y倾向于有相反的符号。那么对于\sigma_{X,Y} = E[(X-\mu_X)(Y-\mu_Y)],如果大于0,则表明X-\mu_X与Y-\mu_Y倾向于有相同的符号,当X=Y时,\sigma_{X,X}=\sigma_X^2,反之亦然。 同理,\rho作为covariance的标准化的值
相关性的向量空间分析从随机变量到向量空间的转换规则我们可以把随机变量看作向量,把correlation看作向量的内积,内积用尖括号来表示。因此有 <\textbf{X}, \textbf{Y}> = E[XY] = R_{X,Y} 内积满足交换律以及分配律 <\textbf{X},\textbf{Y}> = <\textbf{Y}, \textbf{X}> <\textbf{X},a_1 \textbf{Y}_1+a_2 \textbf{Y}_2>=a_1<\textbf{X},\textbf{Y}_1>+a_2<\textbf{X},\textbf{Y}_2> 如果两个向量正交,那么他们的内积为0 <\textbf{X},\textbf{Y}>=E[XY]=0 向量的长度,也就是向量的模为 \left\|\textbf{X}\right\|=\sqrt{<\textbf{X},\textbf{X}>}=\sqrt{E[X^2]} 实用的向量空间下面我们令向量\widetilde{\textbf{X}}以及\widetilde{\textbf{Y}}分别为 \widetilde{\textbf{X}}=X-\mu_X ,\qquad \widetilde{\textbf{Y}}=Y-\mu_Y 这两个向量的模分别为 ||\widetilde{\textbf{X}}||=\sqrt{E[(X-\mu_X)^2]}=\sigma_X,\qquad ||\widetilde{\textbf{Y}}||=\sqrt{E[(Y-\mu_Y)^2]}=\sigma_Y 那么这两个向量的内积就是 <\widetilde{\textbf{X}}, \widetilde{\textbf{Y}}>=E[(X-\mu_X)(Y-\mu_Y)]=\sigma_{X,Y} 按照向量的定义,内积与模之间有如下关系 <\widetilde{\textbf{X}},\widetilde{\textbf{Y}}>=||\widetilde{\textbf{X}}|| \cdot||\widetilde{\textbf{Y}}||\cdot cos(\theta) 即 \sigma_{X,Y}=\sigma_X \sigma_Y cos(\theta) 其中\theta为向量\widetilde{\textbf{X}}与向量\widetilde{\textbf{Y}}之间的夹角。根据前面已得到的结论,我们得知\rho=cos(\theta),而又由于\rho满足-1\leq \rho \leq 1,因此把随机变量推广到向量空间的这种做法正好合适。 在该这里假设的向量空间中,\omega_{X,Y}=0表明\widetilde{\textbf{X}}与向量\widetilde{\textbf{Y}}正交。 Reference: Alan V. Oppenheim: Signals, Systems and Inference, Chapter 7: Probabilistic Models |
|