分享

用数学思维 做正确决策

 行者如风19 2020-04-08
如果你是一个有“数学焦虑症”的人,你可能不会相信有一天你会爱上数学。因为,我们在学校里所学的数学知识看上去就是一堆沉闷的规则、定律和公理,数学课上老师讲解就是一大堆习题,而这一切,似乎与我们的生活毫无关系。我们只要学会数数、算术就可以很好的生活。可是,真的是这样吗?

我们先来看看近期爆发的新冠病毒疫情。

传染病的数学规律


从2020年1月底开始,全国各地的居民们都被以某种形式封闭在自己生活的社区内,不能聚会,不能闲逛,购物活动也被大大限制。

那么,你知道隔离为什么会有效吗?

事实上,隔离这种手段并不是这次新冠肺炎大流行才发明出来的,也不是针对病毒传染病设计的。在人类文明早期,当人类的祖先们意识到传染病存在的时候,就已经下意识地采取某些隔离措施保证自己的安全了。

隔离这个古老的手段发挥功效,根本不需要考虑传染病本身到底是什么病原体引起的,也不需要知道这种病原体有什么特性。只要是传染病,隔离就能起效。因为它的工作原理,其实就是传染病的数学规律。

任何一种传染病想要持续地扩大感染规模,甚至是大流行,都必须能够从一个患者传染给超过一个健康人才行。如果一个患者在被感染期间,只能传染不到一个人,那么,每过一段时间患者的总数就会减少一些,久而久之这种传染病自己就会慢慢消失。相反,一个患者能够传染的健康人越多,这个疾病的传播能力就越强,就越有可能成为一个大规模流行病。

如果用数学语言描述这个逻辑,就诞生了流行病学研究里很常用的“基本传染数”,也就是R0的概念。R0指的就是在没有采取任何措施的情况下,一个患者在感染期内能够传染的人数。

对于任何一个已经在流行的传染病来说,R0肯定都是大于1的。比如,根据历史经验我们知道,每年秋冬季的季节性流感的R0在1.2左右;1918年西班牙大流感的R0在2左右;2003年SARS的R0在2-5之间;而水痘和麻疹这两个疾病的传染能力极强,R0可能分别超过了5和10。

相比R0(一种疾病在纯天然条件下的传播能力),实际传染数R这个指标就更有意义。因为它衡量的是我们人类能采取什么措施,限制疾病的流行。不管一个疾病的R0有多高,只要我们把实际传染数R降低到1之下,就可以有效的消除这种疾病。这就是对付传染病的数学原理。

巴尔的摩股票经纪人

有一天,你收到一封信,一个来自美国巴尔的摩市的股票经纪人建议你买某一只股票,因为他预测在下个周这只股票会大涨。你并没当回事,但到了下个星期,你翻看了股票大盘,发现那只股票真的大涨。很快,你又收到这个股票经纪人的来信,他预测下个星期另一只股票会大跌。下个星期,这个预测又灵验了。

这个股票经纪人连续十个星期给你来信预测,每一次都准得好像证券所是他开的一样。最后,他建议与你长期合作,把你的钱拿来由他投资。你会怎么做决定呢?

根据概率论,即使一个股市白痴,他随便猜测,每次得出一个正确的预测的概率是50%,那么连续十次预测全部命中的概率是:1/1024。这么低的概率,他都能百发百中,你是不是会对他惊为天人,放心地把钱交付给他去投资了呢?

且慢,让我们看看这位股票经纪人的秘密。

第一周,这个股票经纪人发出了10240封邮件,其中一半,姑且称为 A 组,预测股票会涨,一半,姑且称为 B 组,预测股票会跌。第二周,股票涨了,这个经纪人就把 B 组人完全删掉,继续给预测成功的 A 组人写信,依然是分成两半,一半预测某只股票会涨,另外一半预测相反。

这样一周一周下去,每一周经纪人都会淘汰掉一半的人,那么十周之后,经纪人手里就会剩下10个幸运儿,他们连续十次收到巴尔的摩股票经纪人的正确预测,很自然地认为这位经纪人就是位天才,那么这位经纪人很可能从这十个人身上狠捞一笔。

这样的手段,在电子邮件可以复制粘贴并且群发的今天,就更 easy 了,不过,上当的人还是不少。

2008年英国 BBC 有一档真人秀节目,魔术师用相同的手段给成千上万的英国人发送赌马的邮件,最后他成功地让某些人相信了他具备某种超能力。

爱赌马的你如果接到这个电话, 对方预测了本轮赛马的胜者, 数日后应验了; 下一轮之前又接到此人电话, 又预测并应验了; 再下次, 此人向你兜售他的预测, 你买吗? 

买就上当了。因为若每轮赛马有 10 匹马相争, 此人要做的就是找 100 个赌马者的电话, 逐个打去, 对前 10 人预测第 1 匹赢, 对接下来的 10 人预测第 2 匹赢…… 第一轮结果出来后再逐次向蒙对的 10 人预测下一轮, 对第 1 人预测第 1 匹赢, 对第 2 人预测第 2 匹赢…… 


你不过恰好是那个必然存在,然而本身是小概率事件的,两次都被他蒙对的人。

这套把戏在我们生活中随处可见,它之所以能奏效,因为它并不是彻头彻尾的欺骗,它是用真实信息让你得出错误结论。

面对大数据的分析,必须小心翼翼,同一个观察结果,可以倒推出多种可能的原因,让我们误入歧途的,不是事情的真伪,而是推理的时候,是否漏掉了某种假设。

亚里士多德曾经说过:不可能发生的事情也会发生。这就是概率论。让我们误入歧途的,不是事情的真伪,而是漏掉了某种假设。

两片雪花从空中飘落,一片恰好落在另一片上面是小概率事件,然而在一场大雪中,几乎每片雪花都必然落在另一片雪花上面。这是一个极浅显而又极深刻的观察,揭示出我们这个世界是由无数小概率事件组成的,小概率事件每时每刻并且充满必然地发生着。不明白或有意模糊这个道理,是大量迷信和伪科学的起点。


▍粗暴线性回归法


伦敦大学的反恐专家曾经在报纸上说:

2005年10月底,恐怖袭击让1074个以色列人死亡,7520人受伤。对以色列这样一个小国而言,这两个数字已经大得惊人了,按照比例换算,相当于有5万个美国人死亡,30万个美国人受伤。


这样的描述是不是让人觉得很恐怖呢?是怎么算出来的呢?

它是按照人口百分比换算的。用以色列恐怖袭击伤亡人数,除以以色列总人口数,得出一个比例,再用这个比例去乘美国的总人口数,就得出了上面那个吓人的数字。

在政治上,这样的表述有助于引起公众的强烈情绪,从而推动某项法案,但是在数学上,这种算法靠谱吗?答案是否定的,这就是典型的滥用线性回归法,只考虑了简单的数字比例,而忽略了复杂事件中的其他因素。

美国大作家马克·吐温曾在《密西西比河上的生活》里面写:

176年前,下密西西比河在凯罗与新奥尔良之间的河段长1215英里,经过截弯取直之后,缩短为1180英里,之后在美洲湾取直,缩短为1040英里,再后来,这个河段又缩短了67英里。也就是说,在176年的时间里,下密西西比河缩短了242英里,平均每年缩短一又三分之一英里,因此,只要不是瞎子和白痴,我们就不难推测出,再过742年,下密西西比河将只剩下不到两英里长。


这里,马克·吐温就用到了线性回归法,得出结论是下密西西比河会不断缩小,看起来还蛮有道理的,但真的会是这样吗?

我们知道,下密西西比河并没有在我们眼前一点点消失,甚至随着雨季和新航道的开辟,它还偶尔变长呢。那么问题出在哪里呢?

问题就在于马克·吐温使用的是典型的不假思索的线性回归法,只考虑了表面原因,没有考虑地理、气候、地表进化等等之类的其他原因,所以才得出似是而非的结论,根本经不起推敲。

所以说,无论恐怖袭击,还是地理、地质问题,背后都是一系列复杂的原因,不是简单套用某一个线性关系的公式就能搞清楚的。而且,考虑这样的问题,如果应用不同的数字关系,也会差异很大的不同结论。

2004年,西班牙发生了3·11马德里地铁爆炸案,近200人遇难,假如事件发生地换成纽约,会是什么结果呢?如果按照西班牙和美国的总人口来算,美国人口大约是西班牙的7倍,所以纽约将会有大约1300人遇难。而如果按照马德里和纽约的人口比例来算,这个数字就会变成463人,要是再按照马德里省和纽约州的人口相比较,那么得出的结论是600人。

数学领域中有个检验对错的原则,就是,如果按照不同的方法进行计算,得出了不同的结论,那么说明我们的方法有问题。也就是说,处理这样的复杂问题时,不适合采用线性回归法来研究。

这就从数学的角度告诉了我们,线性回归法的简单运用,听起来挺靠谱,但实质上是复杂问题简单化,往往得出错误结论,所以,当你再听到所谓专家大谈统计数据、特别是一些用线性回归法推导出的数字时,要记住,不是所有的线都是直线,不是所有的数据都道出了真相。
 

消失的弹孔


二战的时候,军方给一个牛人无数的数学小组(包括控制论创始人维纳、诺贝尔奖得主弗里德曼),出了一道数学题:为了不让飞机击落,需要给飞机装上装甲,但装甲会使飞机性能减弱,怎样找到一个平衡点?军方说,在返航的飞机上,机身上的弹孔比引擎上的弹孔更多。

在这个牛人无数的小组里,天赋最高的不是诺贝尔奖得主们,而是一位叫瓦尔德的。瓦尔德给出的答案跟军方最初的想法不一样,他认为,需要加装装甲的恰恰是弹孔少的地方。

瓦尔德说,需要加装装甲的地方不应该是留有弹孔的部位,而应该是没有弹孔的地方,也就是飞机的引擎。瓦尔德的独到见解可以概括为一个问题:飞机各部位受到损坏的概率应该是均等的,但是引擎罩上的弹孔却比其余部位少,那些失踪的弹孔在哪儿呢?

瓦尔德深信,这些弹孔应该都在那些未能返航的飞机上。胜利返航的飞机引擎上的弹孔比较少,其原因是引擎被击中的飞机未能返航。大量飞机在机身被打得千疮百孔的情况下仍能返回基地,这个事实充分说明机身可以经受住打击(因此无须加装装甲)。

如果去医院的病房看看,就会发现腿部受创的病人比胸部中弹的病人多,其原因不在于胸部中弹的人少,而是胸部中弹后难以存活。

数学上经常假设某些变量的值为0,这个方法可以清楚地解释我们讨论的这个问题。在这个问题中,相关的变量就是飞机在引擎被击中后不会坠落的概率。假设这个概率为零,表明只要引擎被击中一次,飞机就会坠落。

那么,我们会得到什么样的数据呢?我们会发现,在胜利返航的飞机中,机翼、机身与机头都留有弹孔,但是引擎上却一个弹孔也找不到。对于这个现象,军方有可能得出两种分析结果:要么德军的子弹打中了飞机的各个部位,却没有打到引擎;要么引擎就是飞机的死穴。这两种分析都可以解释这些数据,而第二种更有道理。因此,需要加装装甲的是没有弹孔的那些部位。

美军将瓦尔德的建议迅速付诸实施,我无法准确地说出这条建议到底挽救了多少架美军战机,但是数据统计小组在军方的继任者们精于数据统计,一定很清楚这方面的情况。

美国国防部一直认为,打赢战争不能仅靠更勇敢、更自由和受到上帝更多的青睐。如果被击落的飞机比对方少5%,消耗的油料低5%,步兵的给养多5%,而所付出的成本仅为对方的95%,往往就会成为胜利方。这个理念不是战争题材的电影要表现的主题,而是战争的真实写照,其中的每一个环节都要用到数学知识。

瓦尔德拥有的空战知识、对空战的理解都远不及美军军官,但他却能看到军官们无法看到的问题,这是为什么呢?根本原因是瓦尔德在数学研究过程中养成的思维习惯。从事数学研究的人经常会询问:“你的假设是什么?这些假设合理吗?”

幸存者偏差


对于数学家而言,导致弹孔问题的是一种叫作“幸存者偏差”的现象。这种现象几乎在所有的环境条件下都存在,一旦我们像瓦尔德那样熟悉它,在我们的眼中它就无所遁形。

以共同基金为例。在判断基金的收益率时,我们都会小心谨慎,唯恐有一丝一毫的错误。年均增长率发生1% 的变化,甚至就可以决定该基金到底是有价值的金融资产还是疲软产品。

晨星公司大盘混合型基金的投资对象是可以大致决定标准普尔500 指数走势的大公司,似乎都是有价值的金融资产。这类基金1995~2004 年增长了178.4% ,年均增长率为10.8% ,这是一个令人满意的增长速度。如果手头有钱,投资这类基金的前景似乎不错,不是吗?

标普500指数

事实并非如此。博学资本管理公司于2006 年完成的一项研究,对上述数字进行了更加冷静、客观的分析。我们回过头来,看看晨星公司是如何得到这些数字的。2004 年,他们把所有的基金都归为大盘混合型,然后分析过去10 年间这些基金的增长情况。

但是,当时还不存在的基金并没有被统计进去。共同基金不会一直存在,有的会蓬勃发展,有的则走向消亡。总体来说,消亡的都是不赚钱的基金。因此,根据10年后仍然存在的共同基金判断10 年间共同基金的价值,这样的做法就如同通过计算成功返航飞机上的弹孔数来判断飞行员躲避攻击操作的有效性,都是不合理的。

如果我们在每架飞机上找到的弹孔数都不超过一个,这意味着什么呢?这并不表明美军飞行员都是躲避敌军攻击的高手,而说明飞机中弹两次就会着火坠落。博学资本的研究表明,如果在计算收益率时把那些已经消亡的基金包含在内,总收益率就会降到134.5% ,年均收益率就是非常一般的8.9% 。

《金融评论》于2011 年针对近5000 只基金进行的一项综合性研究表明,与将已经消亡的基金包括在内的所有基金相比,仍然存在的2 641 只基金的收益率要高出20% 。幸存者效应的影响力可能令投资者大为吃惊,但是亚伯拉罕·瓦尔德对此已经习以为常了。

 

回归平均值


你有没有发现一个现象,一对极度聪明的父母所生的子女表现稀松平常,完全没有他父母一半的成就。这里面是有什么原因吗?

大家可以从各个方面入手,也许是教育,也许是机会,也许只是时代变了。但是如果我们从数学角度来看,这种现象是完美的数学呈现,这是数学的“回归平均值”概念。什么是回归平均值?它指的是,只要研究对象受到随机性的影响,就会发生回归平均值的现象。

最先发现这个理论的是19世纪的英国科学家高尔顿。他有个愿望,要把遗传问题量化。首先,他从父亲与孩子的身高入手,因为这是组比较容易采集的数据。他拿出一张白纸,用尺子画出坐标轴,横轴表示孩子的身高,纵轴表示父亲的,每一对父子在坐标图上就是一个黑点。他在收集了大量的数据之后,发现了“散点图”。

如果孩子的身高完全取决于父亲的身高的话,这张图就会变成一条直线。如果孩子的身高与父亲毫无关系,那么我们会得到一章杂乱无章的图,充满了随机的小黑点。

实际上,高尔顿得到的既不是直线图,也不是杂乱无章的图,而是一张散点图,也就是说,它呈现出一个近似椭圆的形状,其中心对应的就是父母与孩子正好都是平均身高的那个点。也就是说,不管父母的身高是高是矮,大数据表示,孩子们的身高都是逼近普通人的身高,也就是回归平均值的。

他在1889年《自然的遗传》一书中是这么总结的:我认为,从整体情况看,成年子女的身高与他们的父母相比更趋于平均水平。所以如果你个子很矮也不必担心,因为你的后代是有很大可能会达到正常人身高的。

那我们到底还受不受遗传学的影响呢?高尔顿发现,遗传还是影响我们,但是通过相关函数发挥作用的。高尔顿的椭圆形有胖有瘦,如果离心率大,则意味着遗传因素的作用大,椭圆形就胖,回归平均值的作用小,相反的话,回归平均值就起到了决定性作用。

高尔顿把这个量称为“相关函数”。高尔顿就此推论,不仅身高,人们的智力水平肯定也会如此。不管父母的智商如何高,后代不可能永远聪明下去,他们必然受到回归平均值的影响,成为普通人中的一员。

这一理论后来被大数据的分析证明了,事实上,生活中随着时间产生变化的任何东西,几乎都会受到回归效应的影响。

那么现在你明白了吗,一位作家在他的第一部小说成功之后,第二部作品受欢迎的程度往往会下降,这不是、至少不全是因为大多数艺术家的能力只是昙花一现,而是因为艺术家跟所有人一样,他们的成功是天赋与运气共同作用的结果,也会受到回归效应的影响。至于影响到什么程度,那要看他的才华和运气之间的相关函数了。


彩票能不能买


每一种彩票的购买价值和获奖价值都不同,购买价值是你购买一张彩票所用的金额,而获奖价值是引入概率论之后,彩票的真正价值,我们用期望值来表达。

期望值的计算方法是这样的,假定该彩票一共有1000万种号码组合,其中只有一种会中奖,每张彩票售价1美元,奖池累计资金为600万美元。那么,该彩票兑奖一千万次,其中有九百九十九万九千九百九十九次的结果毫无价值,其中有1次的价值是600万美元。彩票的期望值为该结果的概率与该结果所对应的彩票价值相乘,在这里例子里:

前九百九十九万九千九百九十九次的价值为零,而只有千万分之一的价值为600万美元,千万分之一,乘以六百万,为60美分,这就是这个彩票的期望值。也就是它的获奖价值。


也就是说你花了1美元,购买了价值0.6美元的商品。用1美元,购买60美分的商品,当然是不明智的,彩票的发行方是稳赚不赔的,发行量越大,发行方赚得越多。

如果有期望值大于购买值的彩票,那么情况会怎么样呢?

2004年秋天,麻省决心振兴该州的彩票业,于是他们想出了一个主意,设计了一款新彩票。这款彩票不仅增加了很多小奖项,而且为了刺激销售,还规定如果一周之内没有人领走大奖,并且大奖基金超过200万美元的时候,奖金就会向下分配,增加容易赢取的奖项的金额。这种机制导致彩票期望值极速增长,高达5.53美元,而每一张彩票才卖2美元。这是个天上掉馅饼的好事。

首先发现这个空子的是麻省理工的学生们,他们组团购买了1000张彩票,获得了三倍的收获。接着一个退休的数学教师也成立了多达70人的亲友团,一次购买了6万张彩票,获得超过5万美元的收入。还有东北大学的张英博士,他收益更多,以至于在2006年的时候,张博士干脆放弃了医学研究,全身心地投入到博彩活动中来。

你看,彩票是赌博,可是,它是否能给你带来巨大收益,除了小概率的运气之外,还有数学公式支持的期望值。2012年的时候,麻省彩票中心终于明白了这件事,取消了这款彩票,可是,在这七年的时间里,麻省理工的学生团队共获利超过350万美元。
 
 

数学作为一门基础学科,在当今时代乃至未来世界,已经是颠覆想象般的重要。数学工具,能让我们更好地了解这个世界的结构和本质。

数学知识分为四类,一类是浅显而且简单的,比如我们小学学的算术;一类是浅显但是复杂的,比如多位数的乘法;第三类是职业数学家的领域,是复杂而且深奥的,比如数论;最后一类是深奥但是简单的,这才是我们普通人需要关注的数学思维,比如不确定性、线性回归谬误、37%法则、回归平均值等等。


艾伦伯格《魔鬼数学》:如果你没有爱上数学,大概是因为没有早点遇到这本书。本书带领我们踏上了一段精彩绝伦的数学思维之旅:它可以磨练我们的直觉,让我们的判断更敏锐,它还可以驯服不确定性,让我们更深入地了解世界的结构和逻辑。

克莱因《数学简史:确定性的消失》:本书再现真实数学的发展过程,它不但是一本数学史,更是一部思想史。揭示了数学的起源,现在与未来。这本书更是一部真正的史诗,全书基本没有一个公式,却把数学史讲得明明白白作者是20世纪最后一位数学史大师。豆瓣评分9.2。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多