分享

正态分布的前世今生(2)

 QuanLiRen2016 2016-03-20


出自统计之都

原文地址:http:///2013/01/story-of-normal-distribution-1/


更多正态分布的介绍,参见正态分布的前世今生(1)

四、众里寻她千百度,误差分布曲线的确立



第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容寻找随机误差分布的规律

天文学是第一个被测量误差困扰的学科,从古代至十八世纪天文学一直是应用数学最发达的领域,到十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则,千百年来的数据使用经验说明算术平均能够消除误差,提高精度。平均有如此的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差服应该服从怎样的概率分布?算术平均的优良性和误差的分布有怎样的密切联系?

伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括:

·        误差是对称分布的;

·        大的误差出现频率低,小的误差出现频率高。


用数学的语言描述,也就是说误差分布函数f(x)关于0对称分布,概率密度随|x|增加而减小,这两个定性的描述都很符合常识。

许多天文学家和数学家开始了寻找误差分布曲线的尝试。托马斯·辛普森(Thomas Simpson,1710-1761)先走出了有意义的一步。设真值为θ,而x1,,xnn次测量值,每次测量的误差为ei=xiθ,若用算术平均xˉ=(ni=1xi)/n去估计θ,其误差为eˉ=(ni=1ei)/nSimpson证明了,对于如下的一个概率分布,


Simpson的误差态分布曲线】

有下面的估计:

P(|eˉ|x)P(|e1|x)


也就是说,|eˉ|相比于|e1|取小值的机会更大。辛普森的这个工作很粗糙,但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。

1772-1774年间,拉普拉斯也加入到了寻找误差分布函数的队伍中。拉普拉斯假定误差分布函数f(x)满足如下性质

f(x)=mf(x).

由此最终求得的分布函数为

f(x)=m2em|x|

这个概率密度函数现在被称为拉普拉斯分布。


Laplace的误差态分布曲线】

以这个函数作为误差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即1/2分位点,作为参数估计值。可是基于这个误差分布函数做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果。

拉普拉斯可是概率论的大牛,写过两本极有影响力的《概率分析理论》,不过以我的数学审美,实在无法理解拉普拉斯这样的大牛怎么找了一个零点不可导的误差的分布函数,拉普拉斯最终还是没能搞定误差分布的问题。

现在轮到高斯登场了,高斯在数学史中的地位极高,号称数学史上的狐狸,数学家阿贝尔对他的评论是“他像狐狸一样,用其尾巴把其在沙滩上的踪迹清除掉”(He is like the fox, who effaces histracks in the sand with his tail.)我们的数学大师陈省身把黎曼和庞加莱(Henri Poincaré)称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。在数学家中既能仰望理论数学的星空,又能脚踏应用数学的实地的可不多见,高斯是数学家中少有的顶“天”立“地”的人物,他既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。在误差分布的处理中,高斯以极其简单的手法确立了随机误差的概率分布,其结果成为数理统计发展史上的一块里程碑。

高斯的介入首先要从天文学界的一个事件说起。18011月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的计算方法,一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。18011231日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!

高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟,而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。

设真值为θ,而x1,,xnn次独立测量值,每次测量的误差为ei=xiθ,假设误差ei的密度函数为f(e),则测量值的联合概率为n个误差的联合概率,记为

L(θ)=L(θ;x1,,xn)=f(e1)f(en)=f(x1θ)f(xnθ).                       (4)

但是高斯不采用贝叶斯的推理方式,而是直接取L(θ)达到最大值的θ^=θ^(x1,,xn)作为θ的估计值,即

θ^=argmaxθL(θ).

现在我们把L(θ)称为样本的似然函数,而得到的估计值θ^称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。

高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。他把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是:

误差分布导出的极大似然估计 = 算术平均值.


然后高斯去找误差密度函数f以迎合这一点。即寻找这样的概率分布函数f,使得极大似然估计正好是算术平均θ^=xˉ。通过应用数学技巧求解这个函数f,高斯证明(证明不难,后续给出)了所有的概率密度函数中,唯一满足这个性质的就是

f(x)=12πσexp(x22σ2).

瞧,正态分布的密度函数N(0,σ2)被高斯他老人家给解出来了!

进一步,高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差ei(见前面的公式(3),eiN(0,σ2),(e1,,en)的联合概率分布为

(e1,,en)1(2πσ)nexp(12σ2i=1ne2i).

要使得这个概率最大,必须使得ni=1e2i取最小值,这正好就是最小二乘法的要求。

高斯所拓展的最小二乘法成为了十九世纪统计学的最重要成就,它在十九世纪统计学的重要性就相当于十八世纪的微积分之于数学。而勒让德和高斯的最小二乘发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明权的争端。相比于勒让德1805给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名高斯分布。估计高斯本人当时是完全没有意识到他的这个工作给现代数理统计学带来的深刻影响。高斯在数学上的贡献特多,去世前他要求给自己的墓碑上雕刻上正十七边形,以说明他在正十七边形尺规作图上的杰出工作。而后世的德国钞票和钢镚上是以正态密度曲线来纪念高斯,这足以说明高斯的这项工作在当代科学发展中的份量。

十七、十八世纪科学界流行的做法,是尽可能从某种简单明了的准则(firstprinciple)出发进行逻辑推导。高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个经验直觉,缺乏严格的理论支持。高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性。这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢?

高斯的文章发表之后,拉普拉斯很快得知了高斯的工作。拉普拉斯看到,正态分布既可以从抛钢镚产生的序列求和中生成出来,又可以被优雅地作为误差分布定律,这难道是偶然现象?拉普拉斯不愧为概率论的大牛,他马上将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。他指出如果误差可以看成许多微小量的叠加,则根据他的中心极限定理,随机误差理所当然是高斯分布。而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。因此有了这个解释为出发点,高斯的循环论证的圈子就可以打破。估计拉普拉斯悟出这个结论之后一定想撞墙,自己辛辛苦苦寻寻觅觅了这么久的误差分布曲线就在自己的眼皮底下,自己却长年来视而不见,被高斯给占了先机。

至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位,并在整个19世纪不断地开疆扩土,直至在统计学中鹤立鸡群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,为现代统计学的发展开启了一扇大门。

在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。正态分布被人们发现有这么好的性质,各国人民都争抢它的冠名权。因为拉普拉斯是法国人,所以当时在法国被称为拉普拉斯分布;而高斯是德国人,所以在德国叫做高斯分布;中立国的人称它为拉普拉斯-高斯分布。后来法国的大数学家庞加莱建议改用正态分布这一中立名称,而随后统计学家卡尔·皮尔森使得这个名称被广泛接受:

Manyyears ago I called the Laplace-Gaussian curve the normal curve, which name,while it avoids an international question of priority, has the disadvantage ofleading people to believe that all other distributions of frequency are in onesense or another 'abnormal'.

-KarlPearson(1920)

不过因为高斯在数学家中的名气实在是太大,正态分布的桂冠还是更多的被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布,两者并用。

正态分布在高斯的推动下,迅速在测量误差分析中被广泛使用,然而早期也仅限于测量误差的分析中,其重要性远没有被自然科学和社会科学领域中的学者们所认识,那正态分布是如何从测量误差分析的小溪,冲向自然科学和社会科学的汪洋大海的呢?

五、曲径通幽处,禅房花木深

在介绍正态分布的后续发展之前,我们来多讲一点数学,也许有些人会觉得枯燥,不过高斯曾经说过:“数学是上帝的语言”。所以要想更加深入地理解正态分布的美,唯有通过上帝的语言。

造物主造物的准则往往是简单明了的,只是在纷繁芜杂的万物之中,我们要发现并领会它并非易事。之前提到过,十七、十八世纪科学界流行的做法,是尽可能从某种简单明了的准则(first principle)出发作为科学探求的起点;而后来的数学家和物理学家们的研究发现,屡次从一些给定的简单的准则出发,我们总是被引领到了正态分布的家门口,这让人感觉到正态分布的美妙。

达尔文的表弟高尔顿是生物学家兼统计学家,他对正态分布非常的推崇与赞美:“我几乎不曾见过像误差呈正态分布这么激发人们无穷想象的宇宙秩序”。当代两位伟大的概率学家LevyKac都曾经说过,正态分布是他们切入概率论的初恋情人,具有无穷的魅力。如果古希腊人知道正态分布,想必奥林匹斯山的神殿里会多出一个正态女神,由她来掌管世间的混沌。

要拉下正态分布的神秘面纱展现她的美丽,需要高深的概率论知识,本人在数学方面知识浅薄,不能胜任。只能在极为有限的范围内尝试掀开她的面纱的一角。棣莫弗和拉普拉斯以抛钢镚的序列求和为出发点,沿着一条小径第一次把我们领到了正态分布的家门口,这条路叫做中心极限定理。而这条路上风景秀丽,许多概率学家都为之倾倒。这条路在20世纪被概率学家门越拓越宽,成为了通往正态曲线的一条康庄大道。而数学家和物理学家们发现:条条小路通正态。著名的物理学家E.T.Jaynes在他的名著《Probability Theory:the Logic of Science(中文译书《概率论沉思录》)中,描绘了四条通往正态分布的小径;曲径通幽处,禅房花木深,让我们一起来欣赏一下四条小径上的风景吧。

1. 高斯的推导(1809)

第一条小径是高斯找到的,高斯以如下准则作为小径的出发点

误差分布导出的极大似然估计 = 算术平均值

设真值为θ,而x1,,xnn次独立测量值,每次测量的误差为ei=xiθ,假设误差ei的密度函数为f(e),则测量值的联合概率为n个误差的联合概率,记为

L(θ)=L(θ;x1,,xn)=f(e1)f(en)=f(x1θ)f(xnθ)                       (5)

为求极大似然估计,令

dlogL(θ)dθ=0.

整理后可以得到

i=1nf(xiθ)f(xiθ)=0.

g(x)=f(x)/f(x),由上式可以得到

i=1ng(xiθ)=0.

由于高斯假设极大似然估计的解就是算术平均xˉ,把解带入上式,可以得到

                      i=1ng(xixˉ)=0.                                            (6)

在上式中取n=2,有

g(x1xˉ)+g(x2xˉ)=0.

由于此时有x1xˉ=(x2xˉ),并且x1,x2是任意的,由此得到:g(x)=g(x).再在(6)式中取n=m+1,并且要求x1==xm=x,且xm+1=mx,则有xˉ=0,并且

i=1ng(xixˉ)=mg(x)+g(mx).

所以得到g(mx)=mg(x).而满足上式的唯一的连续函数就是g(x)=cx,从而进一步可以求解出

f(x)=Mecx2.

由于f(x)是概率分布函数,把f(x)正规化一下就得到正态分布密度函数N(0,σ2).

2. Herschel(1850)和麦克斯韦(1860)的推导

第二条小径是天文学家John Hershcel和物理学家麦克斯韦(Maxwell)发现的。1850年,天文学家Herschel在对星星的位置进行测量的时候,需要考虑二维的误差分布,为了推导这个误差的概率密度分布f(x,y)Herschel设置了两个准则:

·        x轴和y轴的误差是相互独立的,即误差的概率在正交的方向上相互独立;

·        误差的概率分布在空间上具有旋转对称性,即误差的概率分布和角度没有关系。

这两个准则对于Herschel考虑的实际测量问题看起来都很合理。由准则1,可以得到f(x,y)应该具有如下形式

f(x,y)=f(x)f(y).

把这个函数转换为极坐标,在极坐标下的概率密度函数设为g(r,θ),有

f(x,y)=f(rcosθ,rsinθ)=g(r,θ)

由准则2,g(r,θ)具有旋转对称性,也就是应该和θ无关,所以g(r,θ)=g(r),综合以上,我们可以得到

f(x)f(y)=g(r)=g(x2+y2).

y=0,得到g(x)=f(x)f(0),所以上式可以转换为

log[f(x)f(0)]+log[f(y)f(0)]=log[f(x2+y2)f(0)].

log(f(x)/f(0))=h(x),则有

h(x)+h(y)=h(x2+y2).

从这个函数方程中可以解出h(x)=ax2,从而可以得到f(x)的一般形式如下

f(x)=απeαx2

f(x)就是正态分布N(0,1/2α),而f(x,y)就是标准二维正态分布函数。

f(x,y)=απexp(α(x2+y2)).

1860年,我们伟大的物理学家麦克斯韦在考虑气体分子的运动速度分布的时候,在三维空间中基于类似的准则推导出了气体分子运动的分布是正态分布ρ(vx,vy,vz)exp(α(v2x+v2y+v2z))。这就是著名的麦克斯韦分子速率分布定律。大家还记得我们在普通物理中学过的麦克斯韦-波尔兹曼气体速率分布定律吗?

             F(v)==(m2πkT)3/2exp(mv22kT)(m2πkT)1/2exp(mv2x2kT)(m2πkT)1/2exp(mv2y2kT)(m2πkT)1/2exp(mv2z2kT)                   (7)

所以这个分布其实是三个正态分布的乘积。你的物理老师是否告诉过你其实这个分布就是三维正态分布?反正我是一直不知道,直到今年才明白。

Herschel-Maxwell推导的神妙之处在于,没有利用任何概率论的知识,只是基于空间几何的不变性,就推导出了正态分布。美国诺贝尔物理学奖得主费曼(Feymann)每次看到一个有π的数学公式的时候,就会问:圆在哪里?这个推导中使用到了x2+y2,也就是告诉我们正态分布密度公式中有个π,其根源来在于二维正态分布中的等高线恰好是个圆。

3. Landon的推导(1941)

第三条道是一位电气工程师,Vernon D. Landon 给出的。1941年,Landon 研究通信电路中的噪声电压,通过分析经验数据他发现噪声电压的分布模式很相似,不同的是分布的层级,而这个层级可以使用方差σ2来刻画。因此他推理认为噪声电压的分布函数形式是p(x;σ2)。现在假设有一个相对于σ而言很微小的误差扰动e,且e的分布函数是q(e),那么新的噪声电压是x=x+eLandon提出了如下的准则

·        随机噪声具有稳定的分布模式

·        累加一个微小的随机噪声,不改变其稳定的分布模式,只改变分布的层级(用方差度量)

用数学的语言描述:如果

xp(x;σ2),  eq(e),  x=x+e,

则有xp(x;σ2+var(e)).现在我们来推导函数p(x;σ2)应该长成啥样。按照两个随机变量和的分布的计算方式,x的分布函数将是x的分布函数和e的分布函数的卷积,即有

f(x)=p(xe;σ2)q(e)de.

p(xe;σ2)x处做泰勒级数展开(为了方便,展开后把自变量由x替换为x),上式可以展开为

f(x)=p(x;σ2)p(x;σ2)xeq(e)de+122p(x;σ2)x2e2q(e)de+

p=p(x;σ2),则有

f(x)=ppxeˉ+122px2e2ˉ+o(e2ˉ)

对于微小的随机扰动e,我们认为他取正值或者负值是对称的,所以eˉ=0。所以有

f(x)=p+122px2e2ˉ+o(e2ˉ)                                          (8)

对于新的噪声电压是x=x+e,方差由σ2增加为σ2+var(e)=σ2+e2ˉ,所以按照Landon的分布函数模式不变的假设,新的噪声电压的分布函数应该为f(x)=p(x;σ2+e2ˉ)。把p(x;σ2+e2ˉ)σ2处做泰勒级数展开,得到

f(x)=p+pσ2e2ˉ+o(e2ˉ).                                           (9)

比较(8)(9)这两个式子,可以得到如下偏微分方程

122px2=pσ2.

而这个方程就是物理上著名的扩散方程(diffusion equation),求解该方程就得到

p(x;σ2)=12πσexp(x22σ2)

又一次,我们推导出了正态分布!

E.T.Jaynes对于这个推导的评价很高,认为Landon的推导本质上给出了自然界的噪音形成的过程。他指出这个推导基本上就是中心极限定理的增量式版本,相比于中心极限定理来说,是一次性累加所有的因素,Landon的推导是每次在原有的分布上去累加一个微小的扰动。而在这个推导中,我们看到,正态分布具有相当好的稳定性;只要数据中正态的模式已经形成,他就容易继续保持正态分布,无论外部累加的随机噪声q(e)是什么分布,正态分布就像一个黑洞一样把这个累加噪声吃掉。

4. 正态分布和最大熵

还有一条小径是基于最大熵原理的,物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,我不确认这条道的发现者是否是Jaynes本人。

熵在物理学中由来已久,信息论的创始人香农(Claude ElwoodShannon)把这个概念引入了信息论,读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,E.T.Jaynes对这条道也是偏爱有加。

对于一个概率分布p(x),我们定义它的熵为

H(p)=p(e)logp(e)de.

如果给定一个分布函数p(x)的均值μ和方差σ2(给定均值和方差这个条件,也可以描述为给定一阶原点矩和二阶原点矩,这两个条件是等价的)则在所有满足这两个限制的概率分布中,熵最大的概率分布p(x|μ,σ2)就是正态分布N(μ,σ2)

这个结论的推导数学上稍微有点复杂,不过如果已经猜到了给定限制条件下最大熵的分布是正态分布,要证明这个猜测却是很简单的,证明的思路如下。

考虑两个概率分布p(x)q(x),使用不等式logxx1,

p(x)logq(x)p(x)dx≤∫p(x)(q(x)p(x)1)dxbr/>=q(x)dxp(x)dx=0.

于是

p(x)logq(x)p(x)dx=p(x)1p(x)dx+p(x)logq(x)dx0;

所以

            H(p)≤?∫p(x)logq(x)dx                                          (10)

熟悉信息论的读者都知道,这个式子是信息论中的很著名的结论:一个概率分布的熵总是小于相对熵。上式要取等号只有取q(x)=p(x)

对于p(x),在给定的均值μ和方差σ2下,我们取q(x)=N(μ,σ2),则可以得到

H(p)==p(x)log(12πσexp((xμ)22σ2))dxp(x)((xμ)22σ2+log2πσ)dx                             (11)12σ2p(x)(xμ)2dx+log2πσ.

由于p(x)的均值方差有如下限制:p(x)(xμ)2dx=σ2,于是

H(p)12σ2σ2+log2πσ=12+log2πσ

而当p(x)=N(μ,σ2)的时候,上式可以取到等号,这就证明了结论。

E.T.Jaynes显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。这也容易理解,因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。

好的,风景欣赏暂时告一段落。所谓横看成岭侧成峰,远近高低各不同,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束:

Physicistsbelieve that the Gaussian law has been proved in mathematics whilemathematicians think that it was experimentally established in physics.

Henri Poincaré


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多