分享

概率公理化:一个必须补上的理论漏洞

 taotao_2016 2019-12-23

概率公理化:一个必须补上的理论漏洞

你好,欢迎来到我的《数学通识50讲》。

到目前为止,我们讲了概率论的很多用途和思想方法,但是大多数结论和方法都是从经验出发得到的。这和我们前面讲的,数学并不依赖于经验这个特点似乎是矛盾的。事实上,这也是早期概率论所面临的一种尴尬局面。

一方面,包括拉普拉斯和高斯等人在内的一部分数学家在概率论上有了很多的成就,这些成就甚至已经被派上了用场;但另一方面,很多数学家则拒绝承认概率论是数学的一部分。

今天你在一些大学的数学系里,依然能体会到这种鄙视的意味。比如学纯数学的人会说:“他们是概率统计系的,我们是数学系的。”言外之意,那些利用统计做事情的人要比研究纯数学的人低一个档次。

这些当然是对概率论的误解。今天的概率论,早已不是那种基于经验,支离破碎的理论,而是建立在公理之上的,非常严格的数学体系了。这在很大程度上要感谢前苏联伟大的数学家柯尔莫哥洛夫,他完成了概率论的公理化过程,因此很多数学家觉得他是20世纪最伟大的数学家。

定义是概率论的最大漏洞

不过,在讲他的贡献之前,我们先要讲讲19世纪概率论的最大难题,就是对“概率”定义的不清晰。

我们在前面介绍拉普拉斯的古典概率论时讲到,他对概率定义的方法是有漏洞的,发生了循环定义,在介绍随机事件A的概率时,用了等可能性的单位事件这样的说法。但是概率还没定义清楚,怎么能用等可能性的单位事件呢?在此基础上定义概率就是循环定义。

为了弥补拉普拉斯古典概率论的漏洞,英国的逻辑学家约翰·维恩和奥地利数学家理查德·冯·米泽斯提出建立在统计基础上的统计概率。这就回避了所谓的等可能性的单位事件存在性的问题。

维恩和理查德的想法就是我们上一讲讲的,将相对频率极限等同于概率。这是什么意思呢?比如,要确认一个骰子六点朝上的概率是否为1/6,就要进行大量独立的试验,看看最后六点朝上发生的次数和试验次数的比值是否等于1/6。但是我们在前面讲了,由于掷骰子的结果具有随机性,只试验几次,并不能保证骰子的六点那个面每六次就必然有一次朝上。

所幸的是,如果这个随机事件真的存在一个确定的概率,随着试验次数的增加,六点朝上的比例会在一个特定的值上下浮动,并且趋近于某个极限值。这个极限值被称为统计概率,如果试验次数足够多,六点朝上的频率最终就会趋近于1/6。这时我们说它的概率是1/6就没有错。

以上是维恩等人对概率新的定义方式,这不仅弥补了古典定义的一些不足之处,也让我们能够通过大量的试验算出概率。比如,计算一个词出现的概率,就没有什么等概率的原子概率,也就是说,它不能像骰子那样每个数字出现的概率都是1/6那样确定,但是却可以通过试验得到。

不过维恩等人有一个问题还没有回答,那就是要进行多少次试验,我们统计得到的概率才算准确?我们前面在讲高斯分布时,讲了3西格玛的置信度,但是置信度要高到多少我们才认为统计的结果就是概率本身呢?回答了这个问题,才能让概率的定义更清晰明确。

要回答这个置信度的问题,就需要问一个更本质的问题,就是拉普拉斯的古典定义方法,和维恩等人统计概率的定义方法,得到的是否是同一个东西?如果是,我们才有可能经过大量的试验,得到准确的概率,否则你再做试验也没有用,因为可能两者之间总有一个无法弥补的误差。

这就如同我们说,0.99999……无限循环下去等于1,置信度是100%,因为它们在本质上是一回事。但是0.99999……再增加,它和2之间的误差还是无法弥补,因为它们根本不是一回事。

最早的时候,伯努利证明了,假如一件事的概率P真的存在,进行N次试验,每次试验的条件完全相同,那么当N趋近于无穷大时,A发生的次数M除以试验总次数N,即M/N,和它真实的概率P之间的误差是无穷小。这就是我们常说的“大数定理”中的伯努利版本。

伯努利版本在数学上其实并不是很严格,因为它在无形中引入了一个假设前提,就是概率P本身是存在的。

19世纪中期,俄罗斯著名的数学家切比雪夫提出了一个更严格的关于大数定理的版本,在他的版本中,不需要概率P预先存在,他只要求一个随机变量X,进行大量的随机试验后,结果的平均值和方差是恒定的就可以了。而那个平均值,就可以作为它的概率。这被称为切比雪夫版本的大数定理。它不仅在数学上说明了维恩等人对概率定义的合理性,而且也是今天我们采用大数据方法解决问题的理论基础。

应该讲,概率论发展到切比雪夫的年代,已经比较严格了,他所提出的大数定理,都是经过严格证明的。但是,它在形式上依然不漂亮,或者说完全没有数学本身的美感。如果你回顾一下几何学和微积分,就会发现它们都很漂亮,因为只要定义几个公理、几个基本概念,就能构成一个完整的数学分支。

概率论依然不够漂亮

概率论讲来讲去,总是让人觉得有点别扭,很多道理要用自然语言,而不是数学的语言来解释。因此到19世纪末的概率论,依然只能被称为初等概率论。

和初等概率论相对应的,是现代概率论,它是建立在公理和一个被称为“测度”的概念基础之上的,而完成建造现代概率论大厦的主要是柯尔莫哥洛夫,它让概率论能有今天崇高的地位。

柯尔莫哥洛夫和历史上的牛顿、高斯、欧拉等人一样,是历史上少有的全能型的数学家,而且也是少年得志。柯尔莫哥洛夫在22岁的时候(1925年)就发表了概率论领域的第一篇论文,30岁时出版了《概率论基础》一书,将概率论建立在严格的公理基础上,从此概率论正式成为了一个严格的数学分支。

同年,柯尔莫哥洛夫发表了在统计学和随机过程方面具有划时代意义的论文《概率论中的分析方法》,它奠定了马尔可夫随机过程的理论基础,从此,马尔可夫过程成为后来信息论、人工智能和机器学习强有力的科学工具。没有柯尔莫哥洛夫奠定的这些数学基础,今天的人工智能就缺乏理论依据。

柯尔莫哥洛夫一生在数学之外的贡献也极大,他的成果如果要列出来,一张纸都写不下,我们这里就省略了。总之,今天很多数学家把柯尔莫哥洛夫誉为20世纪数学上的第一人,并非过誉。接下来我们就说说柯尔莫哥洛夫是怎样用公理来漂亮地描述概率论的。

首先,我们需要定义一个样本空间,它包含我们要讨论的随机事件所有可能的结果。比如抛硬币的样本空间就包括正面朝上和背面朝上两种情况,掷骰子就有六种情况。

接下来,我们需要定义一个集合,它包含我们所要讨论的所有随机事件,比如掷骰子不超过4点的情况是一个随机事件,掷骰子结果为偶数点的情况也是,或者干脆就是得到5点的情况,所有这些随机事件自然可以构成一个集合。

接下来,我们需要定义一个函数(也被称为测度),使集合中任何一个随机事件对应一个数值。只要这个函数满足下面三个公理,它就被称为概率函数。

基于三个简单公理

这三个公理是:

  • 公理一:任何事件的概率是在0和1之间(包含0与1)的一个实数。
  • 公理二:样本空间的概率为1,比如掷骰子,那么从1点朝上,到6点朝上加在一起构成样本空间,这六种情况放到一起的概率为1。
  • 公理三:如果两个随机事件A和B是互斥的,也就是说A发生的话B一定不会发生,那么,这件事发生的概率,就是A单独发生的概率,加上B单独发生的概率。这也被称为互斥事件的加法法则。很好理解,比如掷骰子一点朝上和两点朝上显然是互斥事件,一点或两点任意一种情况发生的概率,就等于只有一点朝上的概率,加上只有两点朝上的概率。

基于这样三个公理,整个概率论所有的定理,包括我们前面讨论的所有内容,都可以推导出来。可以看出,这三个公理非常简单,符合我们的经验,而且不难理解。你可能会猜想,在这么简单的基础上,就能构造出概率论?确实如此,我们不妨看几个最基本的概率论定理,是如何从这三个公理中推导出来的。

定理一,互补事件的概率之和等于1。

所谓互补事件,就是A发生和A不发生。比如,整个样本空间是S,A发生之外的全部就是A不发生。由公理二和公理三,可以直接得到这个结论。

概率公理化:一个必须补上的理论漏洞

定理二,不可能事件的概率为零。

从上一个定理可以得知,两个互补事件合在一起就是必然事件,因此必然事件的概率为1。而必然事件和不可能事件形成互补,于是不可能事件的概率必须为零。

类似的,我们可以证明拉普拉斯对概率的定义方法,其实可以由这三个公理推导出来,而统计概率的所有理论,以及我们上一讲讲的条件概率的公式,和贝叶斯公式,也都可以由这三个公理推导出来。

自此,概率论才从一个根据经验总结出来的应用工具,变成了一个在逻辑上非常严密的数学分支。它的三个公理非常直观,而且和我们现实的世界完全吻合。

要点总结:

我们通过讲述概率论发展的过程,揭示了数学家们修补一个理论漏洞的过程和思考方法。最终,只有建立在公理化基础上的概率论,才站得住脚,而之前的理论,不过是在公理化系统中的一个知识点。

我们还特别介绍了大数定理,说明了理论计算出的概率,同大量统计得到的结果是一致的。也正是因为有这种一致性,今天的大数据方法也才有了理论基础。

下一讲,我们就说说为什么大多数公司都用不好大数据。我们下一讲再见。——吴军《数学通识五十讲》欢迎大家去得到订阅

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多