几个可以从生活经验中得出的统计常识2010-06-08 17:23:27| 分类: 教学研究 |字号 订阅 1.投针问题 法国数学家布丰先生(1707-1788)经常搞点有趣的试验给朋友们解闷。1777年的一天,布丰先生又在家里为宾客们做一次有趣的试验,他先在一张白纸上画满了一条条距离相等的平行线。然后,他抓出一大把小针,每根小针的长度都小于平行线之间距离。蒲丰说:“请诸位把这些小针一根一根地往纸上随便扔吧。”客人们好奇地把小针一根根地往纸上乱扔。最后布丰宣布结果:大家共投针2212次,其中与直线相交的就有704次。用704去除2212,得数3.142。他笑了笑说:“这就是圆周率π的近似值。”这时,众宾客哗然:“圆周率π?这根本和圆沾不上边呀?” 布丰先生却好像看透了众人的心思,斩钉截铁地说:“诸位不用怀疑,这的确就是圆周率π的近似值。你们看,连圆规也不要,就可以求出π的值来。只要你有耐心,投掷的次数越多,求出的圆周率就越精确。”这就是数学史上有名的“投针试验”。 按语:这是我去年组织业务培训时讲课稿的一部分。通过统计学基本常识与生活常识的结合,希望能对初学统计学或者对统计有一定兴趣的人士带来一点新鲜的学习“空气”。以下的知识,是本人平时工作经验的累积,编辑匆忙,难免有一些讹误,读者可随时批评指正。 一、两个统计著名定理。小概率原理和摩斯科定理。 (一)定理小概率事件与小概率原理。让我们先举例谈谈小概率事件给我们的启示吧。 1、在世界上火车与汽车相撞的事件,时有发生。然而,却几乎没有人,由于担心火车与汽车相撞,不去乘火车、汽车而宁愿步行。这是为什么呢?原因是:在现实中,这种相撞的可能性实在是太小了。在世界上千千万万次的车祸中,能找到的也只是极少数几例。 再举例,人遭遇车祸,这种可能性通常要比火车与汽车相撞的可能性大不知多少倍。然而,在人们亿万次的外出中,遭遇车祸毕竟还是占少数。这是为什么? 不过,小概率原理告诉我们的生活经验,并不等于说我们就应该对小概率事件视而不见或忽视不理。这就是说,你知道发生车祸的几率极低,为什么你在汽车,特别是小轿车里,还要用上安全带呢? 2、这里就顺便告诉大家一个与小概率原理似乎相反的道理,“墨菲定律”,墨菲是美国的一名空军上尉工程师,1949年的一天,他对一位倒霉透顶的同事开了个玩笑,说:“如果一件事情有可能被弄糟,让你去做就一定会弄糟”,没想到,就是这句话,后来在商界广为流传,逐渐演变成著名的墨菲定律。其实我们在现实生活中也常有这样的体会:似乎买回来就没用过的东西,我们总是不得不当作垃圾或废物处理掉,或者随意丢弃在家里的某个角落,没想到,过了不久,我们却突然想起这个东西要派上大用场,却寻它不着。
今天准备培训课程的时候胡思乱想,忽然间想起来墨菲定律(Murphy's Law)这个有趣的话题. 西方文化中,有很多所谓的"定律", 墨菲定律应该算是一则比较著名的"定律"了.什么是墨菲定律? 最简单的表达形式是"有可能出错的事情,就会出错(Anything that can go wrong will go wrong)"。 爱德华·墨菲、约翰·保罗·斯特拉普和乔治·尼克斯凭这条定律居然还得到了搞笑诺贝尔奖(IgNobel)奖。而墨菲定律的一些衍生版本也的确有趣.比如"东西久久都派不上用场,就可以丢掉;东西一丢掉,往往就必须要用它",再比如"你出去买爆米花的时候,银幕上偏偏就出现了精采镜头". 抛开 Murphy's Law 衍生出来如此多的版本不谈,说一下墨菲定律和 DBA 之间的关系。Anything that can go wrong will go wrong, 这句话对 DBA 来说,应该是引起注意的, 甚至作为金科玉律也不为过,一般来说,没有哪一个人管理的数据库是完美无缺的,但是如果你发现了数据库的缺限置之不理,存在侥幸心理,那么最后往往会发生你最担心的问题。我就曾经亲生经历过几起类似的事件,事后总结的时候想 "如果我...如何做" 就好了. 但是已经发生的事情就不允许假设了.
3、我们理解了小概率原理的定义。那么接下来让我们了解一个有趣的小概率游戏吧。如果你到一个班级或者是大一点的部门,我们就以学校里的班级为例吧。如果你是一个班级里的新同学,班上连你共50个学生,那么你完全可以大言不惭地对你班上49名新伙伴,作一次惊人的宣布:“我们班级里一定有人生日是相同的!”我想大家听了,一定会惊讶不已!可能连你本人也会感到难以置信!为什么?首先,你对他们的生日一无所知,其次,一年有365天,而你班上只有50人,难道生日会重合吗? 但是,事实上,通过统计的知识,我可以告诉你,这是极可能获得成功的。 这个游戏成功的道理是什么?原来,班上的第一位同学要与你生日不同。那么他的生日只能在一年365天中的另外364天,利用统计概率运算公式和对数知识,用计算器或对数表细心计算,我们可以得到全班50名同学生日都不同的概率为:P(全不相同)=0.0295。由于50人中有人生日相同和全不相同这两件事,二者必居其一,所以 (二)摩斯科定理给我们的启发。美国管理学家R.摩斯科提出了他的摩斯科定理:你得到的第一个回答,不一定是最好的回答。这一定理运用到统计中,可以总结出:我们得到的第一手数据,不一定是最有用的数据。为什么?达成统计核心目标的关键在于不断修正实现目标的过程。有一位商界奇葩总结出一个观点:一件事情100%的结果,决定于97%的修正过程。我们来看看他得出这一结论的依据吧。美国曾经在上个世纪60年代送两名宇航员到月球上去并获得成功,常被人忽视的是在那次发射后的火箭运行过程中,只有3%的时间火箭方向与正式轨道方向一致,其余时间都在修正航向。可见,要实现一个根本目标不是容易的,因为目标在变动,目标和我们周围的环境在变化,我们具备的各项条件(有利因素、不利因素)也在变。只有不断调整和寻找正确的目标,不断熟悉和适应所处的环境,不断利用好有利于达成目标的条件,克服不利的因素,才能帮助实现目标。而这,需要的就是创新。 两个定理我们就简单介绍给大家,接下来我们再从其他理论和生活启示中认识统计的常识吧。 二、统计的对象需要筛选。 我首先要告诉大家一个重要观念:统计的价值在于对现象和本质联系的描述。让我们用一则故事来阐述这一统计常识。 有两个非常聪明的经济学天才青年,他们经常为一些高深的经济学理论争辩不休。有一天呢,饭后他们一起去散步,为了某个数学模型的证明两位杰出青年又争了起来,正在难分高下的时候,突然发现前面的草地上有一堆狗屎。甲就对乙说,如果你能把它吃下去,我愿意出五千万。五千万的诱惑可真不小,吃还是不吃呢?乙掏出纸笔,进行了精确的数学计算,很快得出了经济学上的最优解:吃!于是甲损失了五千万,当然,乙的这顿加餐吃的也并不轻松。两个人继续散步,突然又发现一堆狗屎,这时候乙开始剧烈的反胃,而甲也有点心疼刚才花掉的五千万了。于是乙说,你把它吃下去,我也给你五千万。于是,不同的计算方法,相同的计算结果——吃!甲心满意足的收回了五千万,而乙似乎也找到了一点心理平衡。可突然,天才们同时嚎啕大哭:闹了半天我们什么也没有得到,却白白的吃了两堆狗屎!他们怎么也想不通,只好去请他们的导师,一位著名的经济学泰斗给出解释。听了两位高足的故事,没想到泰斗也嚎啕大哭起来。好容易等情绪稳定了一点,只见泰斗颤巍巍的举起一根手指头,无比激动地说:“1个亿啊!1个亿啊!我亲爱的同学,我代表祖国和人民感谢你们,你们仅仅吃了两堆狗屎,就为国家的GDP贡献了1个亿的产值!” 也许在座各位当中,已经有不少人听过这个笑话。但是你是否想过,笑话所揭露的不仅仅是所谓国内生产总值计算的误区,而且还是我们从事统计工作同志应该引以为警的生动事例。那就是,统计的对象究竟应该是什么,不应该包括什么。你消费的物品给你带来的并不是正效用,甚至不是零效用,那么这样的所谓消费能作为经济总量计算对象吗?如果这也可以的话,那么,我们干脆全国人民天天在家相互付费买西北风算了,不要生产什么产品,也能让经济总量年年攀高。事实上,我们统计的对象应当是有意义和内涵的事物及事物之间的联系,统计的结果必须反映事实,但更重要的是要反映事实之间的普遍联系。刚才的这一笑话现象是什么?两个人吃狗屎和分别付出五千万的代价,反映的本质和事物的联系是什么?五千万买人吃狗屎,这有意义吗?其实这则笑话还给了我们一个重要启示,就是说统计工作中要注意对搜集的资料数据去伪存真,剔轻留重,这一启示我待会儿还会提到。 三、统计源于生活,服务于生活。 说统计是一门源于实践又必须服务实践的工具,实际上我们没有人会反对,我们在许多工作中,自觉不自觉的也都在利用着统计和统计知识带给我们的便利。许多科学家,特别是自然科学和经济等社会科学领域的科学家,其实都具有深厚的统计学识。让我们来体会一下吧。我这里介绍一次历史著名试验的启发。 公元1777年的一天,法国科学家D·布丰(D·buffon1707~1788)的家里宾客满堂,原来他们是应主人的邀请前来观看一次奇特试验的。 试验开始,但见年已古稀的布丰先生兴致勃勃地拿出一张纸来,纸上预先画好了一条条等距离的平行线。接着他又抓出一大把原先准备好的小针,这些小针的长度都是平行线间距离的一半。然后布丰先生宣布:“请诸位把这些小针一根一根往纸上扔吧!不过,请大家务必把扔下的针是否与纸上的平行线相交告诉我。” 客人们不知布丰先生要干什么,只好客随主意,一个个加入了试验的行列。一把小针扔完了,把它捡起来又扔。而布丰先生本人则不停地在一旁数着、记着,如此这般地忙碌了将近一个钟头。最后,布丰先生高声宣布:“先生们,我这里记录了诸位刚才的投针结果,共投针2212次,其中与平行线相交的有704次。总数2212与相交数704的比值为3.142。”说到这里,布丰先生故意停了停,并对大家报以神秘的一笑,接着有意提高声调说:“先生们,这就是圆周率π的近似值!” 众宾哗然,一时议论纷纷,个个感到莫名其妙;“圆周率π?这可是与圆半点也不沾边的呀!” 布丰先生似乎猜透了大家的心思,得意洋洋地解释道:“诸位,这里用的是概率的原理,如果大家有耐心的话,再增加投针的次数,还能得到π的更精确的近似值。不过,要想弄清其间的道理,只好请大家去看敝人的新作了。”随着布丰先生扬了扬自己手上的一本《或然算术试验》的书。 这就是法国著名数学家布丰为我们带来的介绍圆周率的精彩的投针试验。布丰投针试验的验证其实并不复杂,限于今天培训的时间和条件,我也不打算证明给大家看。 π在这种纷纭杂乱的场合出现,实在是出乎人们的意料,然而它却是千真万确的事实。由于投针试验的问题,是布丰先生最先提出的,所以数学史上就称它为布丰问题。布丰得出的一般结果是:如果纸上两平行线间相距为d,小针长为l,投针的次数为n,所投的针当中与平行线相交的次数是m,那么当n相当大时有: 在上面故事中,针长l等于平行线距离d的一半,所以代入上面公式简化 现在设想把圆圈拉直,变成一条长为πd的铁丝。显然,这样的铁丝扔下时与平行线相交的情形要比圆圈复杂些,可能有4个交点,3个交点,2个交点,1个交点,甚至于都不相交。 由于圆圈和直线的长度同为πd,根据机会均等的原理,当它们投掷次数较多,且相等时,两者与平行线组交点的总数可望是一样的。这就是说,当长为πd的铁丝扔下n次时,与平行线相交的交点总数应大致为2n。 现在再来讨论铁丝长为l的情形。当投掷次数n增大的时候,这种铁丝跟平行线相交的交点总数m应当与长度l成正比,因而有: m=kl 式中K是比例系数。 为了求出K来,只需注意到,对于l=πd的特殊情形,有m=2n。 这便是著名的布丰公式。 其实你认为布丰是怎么想出来如此让人出乎意料的试验的?我相信这里应该既有布丰本人学术知识丰厚的原因,其实更重要的还应该包括他对实际生活中各种现象的观察和关注。 这就是告诉我们,生活与科学没有什么必然的界限,作为历史发展过程中始终与生活紧密联系的统计更应如此。 本专题第二部分讲到这里,实际上从刚才的许多事例中大家也都了解到统计的魅力,这一部分的最后呢,我可以告诉大家一个统计中最核心的理论知识点: 四、统计学基本原理。什么是统计学基本原理?我们从赌场的故事可以得出。
赌场。庄家资金大概是入场赌徒的资金的千倍或者万倍,如果扔硬币,赌徒的胜率会有多少?自己算一下吧,0.00..01%。因此,庄家允许玩一些花样,一方面提高赌徒的玩兴,一方面允许庄家在每笔小赌中胜率略小于50%:没关系,表面上你赢的多,最后都是我的,嘿嘿,这就是庄家。 具体庄家胜率能小到多少?跟怎样的赌徒可以玩怎样的胜率?这些是无数赌场百年来经验积累,为什么不用统计学算一下呢? 当然,你可以讨论(argue)。 1,我干吗赌完才走?我赢到满意了就走。这种小赌徒有,但是不输到精光不停才是真正的赌徒,赌场主要生意面向真正的赌徒。小赢就跑的人毕竟不多,对赌场没有大的损失,反而做了活广告,——“瞧,这家赌场多好玩,还能赚钱,大家以后都去阿~~~” 2,虽然庄家胜率极高极高,但是庄家只有一个,赌徒多阿~~~ ‘人海战术’打败庄家。统计上说,多次贝努利实验的结果也是很容易算的。赌徒数线性增长,赌场的胜率减弱却是级数型。注意:级数增长是很可怕的,但是级数减弱缓慢得让人挠头发火。人多到把赌场挤爆都不一定能扭转局面,庄家此时已经赚得笑不动了。 因此,最严谨的科学——数学说:你赢不了赌场;你每次下注赢回的期望值都是正的,但是你每次去赌场回家时口袋里的期望值是零;赌钱就是happy一下,千万别沉迷。 3.蒲丰投针试验思想 18世纪,法国数学家布丰和勒可莱尔提出的“投针问题”,记载于布丰1777年出版的著作中:“在平面上画有一组间距为d的平行线,将一根长度为l(l<d)的针任意掷在这个平面上,球此针与平行线中任一条相交的频率。”布丰本人证明了,这个概率是 |
|