我们日常说的概率,有多种内涵。比如抛硬币得到正面的概率为0.5,这是跟硬币的本身构造有关系的,这被称为习性理论,每次抛硬币只跟硬币本身有关,跟前一次后一次的结果无关。 比如降雨概率,这是跟百分比有关的。根据历史的气象资料,然后再根据现在气象的监测数据,推断今天的降雨概率,这种判断之后的结果会影响下一次判断。 比如我认为神马今天在群里冒泡的概率为0.1,这种是主观的概念,是基于个人认知,个人效用计算的。 一般统计学里主要的概率,就是区间估计。比如有一堆数字,我随机抽取,然后认为在0.95的置信水平下,它能落在5~10之间。也就是,抽取100次,会有95次抽取的数字在[5,10]里面。 0.95是个经验值,一般这么认为,现在统计学家认为这不是个好数字,做统计的应该在数据分析明确表现出他的置信水平。 概率(1):马尔可夫链 在高中学初等概率时,一般都强调事件与事件之间相互独立,但是在有些情况下是不独立的。不独立的话,就会有相关性,马尔可夫链讲的就是这类相关。 举个例子,这有一枚硬币,正反两面,经过测试,它是无偏向的,正面反面的概率各为0.5。现在规则如下:假设初始值S=0,让你抛这枚硬币,如果是正面,那么就加一,S=S+1;如果是反面,就减一,S=S-1。如果S大于等于0,就记为蓝色,如果S小于0,就记为红色。当你不断地抛硬币,然后就会得到一个序列,像“红蓝蓝蓝红红……”之类。这就是一条马尔可夫链。 然后有科学家进行实际测试,发现结果中,红蓝的比例不是1:1,而是有很大的偏差。 所以,在马尔可夫链的例子里我们并不能用在独立条件下的那套计算方法,虽然上面那个例子中抛硬币是个独立的过程。 深入地理解一下,比如某一次S=3,即这一次是蓝色,无论下一次硬币是正面(+1),或是反面(-1),结果S都大于0,即结果都是蓝色。 马尔可夫链在日常生活中很常见,比如天气。昨天的天气跟今天的天气有很大程度的相关,而前天,乃至大前天的天气可能就跟今天的天气没有关系。(这个例子就是马尔可夫链的定义) 马尔可夫链的引入,在书中是来自一个反常的现象,即波普尔提出来的关于太阳东升的例子。在过去的7000多年里,有史料记录,太阳每次都是东升的,大概是7000x360次(粗略计算)。假如明天,太阳不东升了。让你预测后天太阳东升的概率。如果按照独立性的那套来计算,那么p=(7000x360)/(7000x360+1)=0.9999996~1。也就是说,后天太阳依旧会东升。但这种想法明显是反常的。 太阳东升也是马尔可夫链,不能这么算,所以出了这样的差错。波普尔利用这个例子来引出它的那个猜想与反驳的观念(用一个解释力更强的假说替代原假说)。 |
|