分享

主观概率

 秀水拖蓝 2011-09-30

主观概率  

(《新发现》专栏,勿转)

我们知道,一个科学理论从来不能完全被证明,但却可以被证伪。这是基于这个事实,即一个理论的预言可以有无限多,我们不可能一一去证实,但一个理论的预言可能被某个实验否定从而被证伪。例如,太阳明天照常升起,谁都不会怀疑,这就是基于以往我们的经验,或者基于牛顿力学的正确性。但是,我们却永远不能证明太阳明天照常升起,原因是我们不能逻辑地排除经验和理论中出现的偶然漏洞。

近年来,贝叶斯统计在宇宙学中甚至在理论物理中的应用越来越多,就是和上面的那个事实有关。人们常说,贝叶斯统计是一个主观概率理论,用以区别我们在大学学习的学术上称之为或然概率理论。在通常或然概率论中,一个事件发生的概率的含义是,假如你重复做无数次实验,那么该事件发生的次数与实验次数之比就是这个概率。而贝叶斯理论中的概率不是这样的,在贝叶斯理论中,一个事件发生的概率是我们的主观期待这个事件发生的可能性。比如,明天太阳照常升起的贝叶斯概率应该为1。主观上,我们说明天太阳照常升起是基于我们过去的经验,尽管这些经验是有限的。从这个例子我们知道,如果经验发生变化,那么贝叶斯概率也将发生变化,换言之,贝叶斯概率是基于有限的数据得出的数字,这个数字随着数据的增多会不断改善。

虽然我们不能证明一个理论,我们对一个理论的信心会随证据的增加变得越来越强。在我研究的领域,我们经常看到试图用增加理论复杂的办法来修改一个简单的理论,虽然没有任何证据说明那个简单的理论有任何问题。例如,总有人不断地发明新理论来代替爱因斯坦弯曲时空的引力理论,这些新理论越来越复杂,却在实验中找不到一点证据。提出这些新理论并非真的是怀疑爱因斯坦的理论,在我看来,基于贝叶斯推理,其实是证明爱因斯坦理论正确性的贝叶斯概率越来越大。

在传统概率论中,一个理论正确的几率只能取两个值,0或者1,要么完全是错误的,要么是正确的。但在贝叶斯理论中,一个理论的正确概率可以是0到1 之间的任何一个数。我们人类能够做的实验和收集到的实验数据总是有限的,所以,就有了在有了一定数据的前提下,某个理论的正确的概率。更加具体地,令数据集合为D,理论为T,我们要做出在D的前提下T多大可能是正确的判断,这个概率记为P(T|D)。这是一个普通的条件概率,但计算起来并不容易。

当数据积累得越来越多后,我们可以利用贝叶斯定理来重新计算新的概率,这个概率会越来越大,如果数据倾向于支持理论。贝叶斯对所谓的贝叶斯统计的主要贡献是贝叶斯定理。在介绍贝叶斯定理之前,我们说一下最近为什么贝叶斯统计在宇宙学中变得重要。

在现代物理学中,决定论一直占上风,也就是说,一旦我们知道一个系统(例如整个宇宙)在某一个时刻的状态,我们就可以预言它在今后任何一个时刻的状态,反过来也可以倒推过去任何一个时刻的状态。宇宙学遇到最大的问题之一,很类似牛顿当年遇到的第一推动问题,就是,在宇宙大爆炸的最初一瞬,宇宙的状态到底是什么?这就是所谓初始条件问题。现代理论宇宙学的一些重要进展几乎都和这个第一推动问题相关。例如,为了解释宇宙的均匀性,Guth发明了暴涨宇宙论。另一个与初始条件相关的问题是,宇宙中这么多的丰富内容是怎么来的?也就是说,为什么宇宙在最初的时刻比现在要简单得多?

有一种可能,是宇宙的初始条件并不是唯一的,而是任何可能性都出现过,这就是多元宇宙论。与多元宇宙相关的是,弦理论中允许不同种类的宇宙出现,其中物理定律可以不同。这样,我们就有了如何判断我们看到的这个宇宙的概率问题,以及,弦理论中不同规律(或理论)成立的概率问题。如前,令D代表我们收集到的宇宙学观测数据,T代表弦理论中的某个理论(或规律)或多元宇宙中的某个宇宙,我们需要计算在数据D前提下T成立的概率P(T|D)

在贝叶斯推理中,我们将D和T都看成是“事件”,那么P(T|D)是在事件D发生的前提下,事件T发生的概率。现在,贝叶斯定理就派上用场了。令P(D)P(T)分别是D和T发生的概率,P(D|T)是T已经发生的前提下D发生的概率,贝叶斯定理是

P(T|D)=P(D|T)P(T)/P(D)

证明这个定理很简单,因为它等价于P(T|D)P(D)=P(D|T)P(T),这个新方程两边都等于D和T同时发生的概率。这个定理看似简单,却有很多用处,例如可以用来推出一个迭代关系,当数据增加时,这个迭代关系可以用来计算在增加数据以后T成立的概率。我们不在这里认真地将贝叶斯定理用在宇宙学上,但举一个日常的例子说明贝叶斯定理的用处。这个例子最近也出现在同人于郊的博客里。

假定路人甲去医院体检,查出艾滋呈阳性,那么,他真正感染上艾滋的概率是多大?现在,令D是艾滋阳性事件,真正得艾滋的事件为T,我们想知道概率P(T|D)。贝叶斯定理告诉我们P(T|D)=P(D|T)P(T)/P(D),所以我们需要知道另外三个数字,P(D|T)是一个感染艾滋的病人被查出的概率,P(T)是任何一个人感染艾滋的概率,而P(D)是任何一个人被查出艾滋阳性的概率。我们知道的数据是,一万个人中有一个感染艾滋,所以P(T)=0.0001,一个感染艾滋的人被查出的概率高达99.9%,所以P(D|T)=0.999。最后,我们需要知道P(D),即任何一个人查出艾滋阳性的概率。这个人可能感染艾滋,可能没有感染,所以P(D)=P(D|T)P(T)+P(D|NT)P(NT),其中NT是没有感染艾滋,如果没有感染艾滋被误诊为阳性的概率是P(D|NT)=0.0001=P(T),这个公式告诉我们P(D)=2P(D|T)P(T)。最后,用贝叶斯定理我们得到P(T|D)=0.5。这个结果很反直觉,可怜的路人甲只有一半机会真的感染了艾滋。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多