分享

漫谈现代统计 “四大天王”

 gudian386 2020-07-24
1
卡尔.皮尔逊篇

1.  世界的本质是随机的吗?

谈统计,我们却不得不从这样一个哲学问题开始,因为它涉及整个学科存在的合理性。
如果我们拿这个问题去问任何一个统计学家,他/她一定会回答:是!
——否则,还要统计干什么呢?
但要大众文化接受这样的观念却并不容易。自19世纪以来,以牛顿力学为代表的科学,应用于现实世界,在各行各业取得了巨大的成就,也让一种“决定论”的世界观深入人心——世界的本质就像一个大时钟运行着,于是,我们只需要少量的数学公式,不仅可以描述现实,还能预测未来。
但有一个人,推翻了这种“常识”,带来了一场统计革命,他就是卡尔.皮尔逊。
学生时代的皮尔逊,就像你身边最为艳羡的同学:1875年剑桥大学入学考试,以第二名的成绩荣获奖学金入读国王学院;四年之后以数学一等荣誉中第三名的优异成绩毕业。
考虑到该学霸同学喜好宗教和政治的文艺青年特质,大学毕业后选择到德国攻读政治学的博士,也并不让人意外。
在那里,他又深深地迷上了卡尔.马克思,为表达敬意,23岁的他将自己的名字都由“Carl”变成了马克思的“Karl”,且他这一生在政治观点上,始终保持着对受压迫者的同情——这对于出身富裕阶层的青年才俊尤其难得,尤其是对女性的提携和尊重也让卡尔不同与其他思想大家。40岁之前,皮尔逊已经是皇家科学院院士,两获达尔文奖章。

皮尔逊的名作《科学的语法》多次再版,

到今天仍然是“介绍科学和数学最伟大的书籍之一”

大概是声望与权力膨胀,也无限放大了他的控制欲,在接下来的20年,皮尔逊把他的实验室以及所有同事都变成了他个人意志的延伸,把《生物统计》变成了他一个人的杂志——只发表他认可的文章,得不到认可的观点在整个统计界都不能发表;
除此,还充斥着大量他自己写的各式评论——比方,他依旧兴趣广泛,所以《生物统计》也发表过他的考古发现,当然还有更多的是他对自己看不惯的学术观点毫不客气的批评。
1910年如日中天的统计一哥:皮尔逊
对他在后世声名影响最大的,莫过于他与日后另一大“统计天王”费希尔旷日持久且刻薄激烈的学术争斗。
今天已经搞不太清让他们从最初的友好到交恶的具体事件。当然他们并无任何私仇,争执的核心肯定是关于学术的,很可能的原因是,皮尔逊看不懂、同时也看不上费希尔文章里用到的颇为晦涩和复杂的数学。但可见的事实是,皮尔逊除了将费希尔的一篇文章作为他和同事工作的补充附录发表以外,《生物统计》从来没有发表过任何费希尔的文章,但对费希尔文章的批评却刊登得不少。这场学术之争,最终以费希尔的胜利告终,皮尔逊很多的批评和观点被证明是完全错误的,之前的辉煌也一去不返,而另一颗新星正冉冉升起
2
费希尔篇 

2.实验该怎么做?

    毫不夸张的说,在费希尔之前,可能没有人想过这个问题。
    我们甚至不清楚,这个问题在问什么。因为长期以来,在“决定论”的世界观下,我们从不觉得存在讨论这个问题的必要:用实验去发现新知,难道不是自然而然?比方,哈维做了解剖实验就发现了血液循环;伽利略从比萨斜塔扔下去了两个大小不同的球就发现了自由落体定律;孟德尔做了豌豆杂交实验就发现了遗传规律……不就是这么“直接”做嘛?哪里还有什么“怎么做”的问题?
     我们谈到“世界的本质是随机的”——这一统计学最底层哲学观点,会不会就有一丝的迟疑:觉得刚刚那些说的那些,其实不是“直接”,实则是有点“简单粗暴”呢?而费希尔就针对此问题开创性地给出了挑战以及解决方案,并收录在他的经典名作《实验设计》
   罗纳德.费希尔爵士(Sir Ronald Fisher 1890~1962,也经常有书译做“费雪”)出生于一个七个孩子的中产大家庭,父亲是成功的商人。他童年至青年的成长道路,今天可以作为“逆境天才”的典范:体弱多病,孤苦伶仃,视力严重受损——为保护他高度近视的双眼,医生禁止他在灯光下读书。十几岁的时候又家道中落——母亲病逝,父亲破产。
    但这些似乎对他的“学霸”之路没有丝毫影响:从小酷爱数学和天文,7、8岁已经出席著名天文学家罗伯特.鲍尔的大众讲座,14岁进入哈罗公学读书展现了惊人的数学能力——荣获全校数学征文比赛的大奖,赢得了足够上大学的奖学金。
     费希尔有着“超乎常人”的几何直观能力——这种能力应该是他一路读书求学期间为了克服困扰他终身的严重眼疾练就的——由于不能在灯光下看书,夜晚助教给他上课和辅导,完全不能使用笔纸等任何教具。有些结论在他看来完全是不言而喻的,而其他人却常常无法理解他的思想。其他数学家需要花费数月乃至数年的时间去证明费希尔认为根本无需证明的东西。
       费希尔早期写的一类文章数学性非常强——使用大量的数学符号,一页里有一多半都是数学公式。这样的文章对大众几乎是“令人生畏”的,就是数学基础不弱的同时代统计界大拿前辈们(戈塞特、皮尔逊)也在通信中直接表示:看不懂。这是他和卡尔.皮尔逊日后交恶的一个客观原因。
     在皮尔逊的排挤下,费希尔离开剑桥后,先后在投资公司做统计,在加拿大的农场里工作,在多所公立学校当数学和物理老师。这些经历一次比一次糟糕。学生们无法理解在他看来显而易见的内容,令他非常生气。
      兜兜转转四五年后,费希尔接受了洛桑农业实验站的一个工作职位——分析那里积累了90年的农业试验数据。之后7年的辛苦工作,他发表了一系列让他声名鹊起的重要结果《收成变动研究》,这些工作是在条件相当艰苦的情况下完成的。
    洛桑农业试验站
  在这些工作中,费希尔提出了数据分析的原创性工具,提供了这些工具的数学推导过程,描述了它们的应用领域,并把它们应用在洛桑90年的数据中,得到了诸如“随机对照试验”、“方差分析”、“自由度”这些对后世影响甚巨的概念和方法。
 当然你肯定好奇,都在哪里发表呢?农业科学杂志。这绝对是最成功的“曲线救国”的实例,费氏研究方法很快就在大多数英语国家的农学院占据了统治地位。他的工作反响巨大,成为了热点,引出了一大批的数据处理、实验设计的科学文献,应用遍及农学以外的其他领域,包括医学、化学、工业质量控制等等。
       1934年,费希尔终于作为皇家统计学会的受邀嘉宾在最高规格的会议上展示他的成果。这是一项殊荣,只有在该领域最杰出的人士才能获得这样的邀请,完全是一种江湖地位的象征。自20世纪20年代,费希尔事实上脱离了统计学主流,现在,他的天才终于得到了承认,皇家统计学会终于让他进入了该领域的领导者之列。之后的有生岁月里,各种荣誉纷至沓来,不夸张的说,是他拿奖拿到手软的时代。他还在1952年被册封为爵士。
    至此,他和卡尔.皮尔逊的学术斗争以他的全面胜利而告终,但费希尔的争斗还将继续下去。
3
埃贡.皮尔逊篇 

3. 没有故事的男同学

       埃贡.皮尔逊(Egon Pearson 1895~1980)是现代统计奠基人卡尔.皮尔逊的儿子,为了和他父亲好做区分,我们称他为“小皮尔逊”(相对的,称卡尔.皮尔逊为“老皮尔逊”)。至少从上个世纪60年代起,老皮尔逊在统计圈内已经渐渐湮没无闻了。但直到今天,Pearson几乎还是任何一本统计教科书里的鼎鼎大名——恭喜你,猜对了——绝大多数都是指向我们本节的主角:小皮尔逊。
因此,或许我们会觉得小皮尔逊要比父亲成功得多。
     回顾小皮尔逊的成长岁月,套用我们今天的流行语,他几乎就是个“没有故事的男同学”。 某种意义上,他完全是在父亲的阴影下长大的。
       他有一个各方面都才华横溢的父亲,而且他的整个成长岁月都正处在父亲事业的上升期——老皮尔逊是当时统计界里首屈一指、说一不二的大拿。小皮尔逊从小就非常崇拜父亲,对父亲的工作和成就耳濡目染,据说五岁的时候,就拿着粉笔在黑板上写满稚嫩的字迹,像父亲开创统计界的顶刊《生物统计》一样,创办了自己的杂志。

童年的小皮尔逊(左一)和父亲老皮尔逊(左二)、母亲和姐姐
作为父亲唯一的儿子,也是家里唯一一个学数学做统计、可以继承父亲衣钵的人,可以想见,父亲当初一定对他期望甚高。小皮尔逊从小体弱多病,一直在家由父亲安排他的学习和生活,直到1914年才离家去剑桥上大学。那时正值第一次世界大战,当时的年轻人觉得最酷的事情就是去参军打仗,小皮尔逊由于身体条件不佳去不了,而周围的同学都是老兵,他显得格格不入,在学校里非常孤立。上学还不到一年,又由于生病休学了。之后他没有再回到学校继续完成学业,而是参与了军队服务。后来由于军队补偿性的政策,他通过军队为因一战而辍学人员的一个特别考试,于1920年被授予了学士学位。第二年,他就在父亲创办的应用统计系任讲师。 
      “混”了个文凭,由父亲安排工作,在父亲当领导的地方上班,当讲师五年却没讲过一节课,吃住社交全都在家里——大家千万不要被他“佛系青年”的表象迷惑,小皮尔逊其实非常勤勉上进:父亲不让他上课,但他认真去听父亲的每一堂课;专研父亲的理论和统计研究前沿,并渐渐开始发表一些水平还不错的文章,靠着自己的努力,渐渐在统计界崭露头角。
       为什么我们可以说是他“自己”的努力呢?作为名门之后,父辈的光环也可能是巨大的羁绊,要走出一条属于自己的成功之路实属不易——意味着,理智战胜情感,勇气战胜压力。但也许好就好在,小皮尔逊和他父亲的性格大相径庭:父亲是个才华横溢、才思敏捷,做事风风火火、过度自信甚至专横跋扈的人,一旦有什么新思想,就匆匆下笔,立刻发表,在数学表述上经常有不清晰甚至错误的地方;而他则害羞而谦逊,内敛而深沉,自省而谨慎,做研究非常认真,仔细推敲计算过程的每一个细节。大概也正因为这样迥异的个性,他在研究上也与父亲渐行渐远。在20世纪20年代,老皮尔逊和费希尔的学术斗争如火如荼,小皮尔逊则开始经历他人生中最为煎熬的一段时期,他异常痛苦地发现,父亲有可能错了,而他必须在情感与理智的漩涡中艰难地抉择:
1. 极为困难地试图理解费希尔,
2. 痛恨他批评和攻击心中“神”一般存在父亲,
3. 痛苦地发现,至少在一些事情上,费希尔是对的。
       事情的转机在1926年的春天悄然到来——在家里举行的一次周末聚会上,小皮尔逊结识了一位从波兰来的访问学者内曼——大概除了小皮尔逊,谁也不曾想到:这个从边远地区来的毫不起眼的青年,日后会和他一起合作完成关于假设检验的传世工作,最终成为统计界新一代宗师级的杰出人物。
      内曼与皮尔逊
首先,两人的成长环境差异巨大:内曼的家乡波兰就是在今天也不算富裕国家,而在他出生的年代,波兰还只是俄国的殖民地——波兰和俄国上几代的世仇,又在连年战争后,穷困贫瘠程度可想而知。那波兰来的青年学者,在当时生活在“日不落”帝国首都的伦敦人民看来,可不就和我们今天看“巴铁兄弟”一样——扶贫嘛。
        再论两人的家庭背景,就更是天壤之别了:如果我们把出生书香大家的贵公子小皮尔逊比作豪华温室的娇贵花朵的话,那么内曼大概就是荆棘之地野蛮生长的无名存在——孤儿寡母,寄人篱下,颠沛流离,经历丰富到二十多岁像过了一般人的几辈子。
       再说两人的个性,也是大相径庭:小皮尔逊是内向而寡言,内曼则热情又健谈。或许是被内曼丰富的人生故事吸引,或许是被内曼温润如玉的气度所折服,或许……就是缘分。又不由感叹,小皮尔逊虽然性格内向,但交朋友真可谓“火眼睛睛”——可能只有几句的闲谈,就识得内曼这样数学功力了得的旷世奇才;而且,他对于朋友的影响力也是杠杠的——即便内曼,也对小皮尔逊在他们合作中早期担纲领导者角色也从无争议,要知道,领导天才本身就不是件容易的事,能把天才从他的偶像身边拉回到自己的身边,那必须得靠独到的学术品味和非凡的人格魅力了。
       某种意义上,也完全是小皮尔逊让内曼与统计结缘:虽然我们丝毫不怀疑内曼从事其他的领域也会有一番成就,但统计界可能就失去了一代宗师。再说一件事,可能会更让我们惊讶得下巴都要掉下来:他们的友谊和合作完全靠鸿雁传书的——内曼在结束在巴黎的访学就回到了波兰,而小皮尔逊一直在伦敦,这样的两地的情况一直到1935年内曼前往伦敦才结束——也就是说,他们共同完成那些名垂青史的工作的绝大部分时间里,完全是靠书信交流的!
 哈哈,一个“没有故事”的同学也已经被我们八卦了不少。
       虽然,他看来可能是“四大天王”里最平庸的一位,却也是最让笔者感触最深的一位。我会不由想起之前很火的那个文章——著名科普作家郝景芳的超级难题:清华北大毕业的父母,能接受自己的孩子上三流学校不?类似问题放到老皮尔逊那里,似乎还要变得更尖刻:“均值回归”理论的共同开创者,能接受“均值回归”发生在自己孩子身上不?
      说来甚至神奇,那些看似缺陷的性格特质却恰恰可能成就一个人——小皮尔逊之所以为小皮尔逊,而不是我们臆想中作为老皮尔逊儿子那种世家公子的样子,难道不正是源自他的内向与自卑,以及因此而发展出来谦逊、内省、勤勉的处世态度?如果我们还可以设身处地的想象一下,就会知道这有多么难得,甚至说得上是一种上天的恩赐。但凡他的性格中,像他父亲那样——也是许多系出名门或年少得志的青年才俊的共性,骄傲和固执,哪怕仅仅是多个一分半点,他极可能不会有后来的成就了,也许一切都是刚刚好。
4
内曼篇 

4. 早年经历:坎坷 VS 乐观

      乔治.内曼(Jerzy Neyman 1894~1981)出生在沙皇俄国,但从来都认为自己是波兰人,内曼的童年很幸福,那时波兰还是俄国的殖民地。由于沙皇的“波兰人不得回原籍”政策,成千上万的波兰家庭被驱赶、流放或是逃难,而迁居俄国,成了侨民——内曼的家族是其中之一。不过,到内曼父亲一代,生活已经安定:父亲从事法律,家里衣食无忧,还雇有保姆和仆人。内曼有个比他大十六岁的大哥,但他几乎是作为家里唯一的孩子长大的。父母非常重视他的教育,所以除了正常上学,还请了家庭教师专门教授他德语和法语。这里,内曼的语言天赋非常值得一提——据不完全统计,内曼一生至少精通7种语言(俄语、波兰语、乌克兰语、法语、德语、拉丁语、英语),至少用其中3种语言发表过学术论文,至少用5种语言讲授过数学课——这当然和他优质的早期教育大有关系,也为他日后走南闯北提供了不小的便利。
      好景不长,内曼12岁的时候,父亲突发心脏病去世,没有留下什么遗产。母亲只好带着他投奔娘家亲戚,搬到了哈尔科夫——他就在哈尔科夫一路求学到大学毕业。这段少年时光,推想应该挺艰难的:孤儿寡母,寄人篱下,又是在俄国革命前夕,经济萧条,时局动荡,母亲恐怕是省吃俭用,才保证得了他一路求学的费用。不过,在内曼的回忆里却很快活——平日里和表兄弟们一起愉快的玩耍,假期里去给地主家的孩子们补课赚外块,和庄园里的孩子们一起打猎,甚是好玩。
       
1917年,内曼从哈尔科夫大学毕业,并留校任教。同年,罗曼诺夫王朝长达300年的统治在流血中无可挽回地终结,战争和革命席卷了每个俄国城市,物资短缺,食物匮乏,生活就不仅仅是艰难,甚至有时生存也成了问题。内曼有过数次的铁窗生涯:有时,是因为去黑市上换食物。有次,是因为去公园砍树.
     自上大学开始,他会悄悄跟着教授们进图书馆记下他们看过什么数学书,然后借来看。
       大三的时候,教函数论的教授推荐内曼去读一些课程不涉及的高级内容——勒贝格积分。于是,内曼去图书馆找到法国数学家勒贝格(Henri Lebesgue)的原文来读。后世一般认为,勒贝格的原文是比较晦涩艰深的,大家学习勒贝格积分也都是通过被其他数学家简化和整理过的版本,极少有人是通过研究原文来学习。但内曼就是完全靠自己读懂了!不仅是读懂了,而且彻底沉迷进去,一发不可收拾——用他自己的话来说,“战争扫荡了一切,而勒贝格先生依然故我……”,对于内曼而言,恰是勒贝格扫荡了一切,甚至扫荡了战争。
    青年时代,内曼的理想一定是像勒贝格一样,做一个纯理论数学家。当年,日后的理论概率学家的伯恩斯坦(S. N. Bernstein)就在他大四时候来到哈尔科夫大学任讲师,内曼去听过他的课,对他也十分欣赏和尊重,但由于沉迷于勒贝格积分,对概率和统计相关研究丝毫不感兴趣。反倒是伯恩斯坦课上推荐他们读的老皮尔逊的《科学的语法》,极大地震动甚至颠覆了来自天主教家庭的他的世界观。对他日后走上统计研究之路,也许可以说是无心插柳,但影响深远。
      内曼迁居波兰后,生活很艰难。他一直执着地保持学术追求,多番努力,到处求取当时非常稀缺的大学教职。但当时只有一家地方农学院希望开辟新兴的统计专业,需要一个教统计的老师。完全迫于生计,内曼就接受了这个职位,就这样开始了他的统计生涯。但收入微薄,他依然需要靠去中学讲课、去机构和公司兼职才能勉强维持生活。
       但即便在这样艰苦的条件下,内曼依然做出了很多成绩——他发表了一系列研究成果,在波兰学界崭露头角。当时,他已经搬到了华沙,供职中央农学院。一件非常幸运的,可以说完全改变内曼命运的事发生了:1926年,他得到了政府的资助去英国访学——因为他发表的文章和项目申请,在波兰学界已经没人有足够的水平审稿了,于是政府决定派遣他去当时世界第一的统计研究的中心、统计学界“一哥”老皮尔逊那里深造。     
  1934~1938年期间,内曼对统计科学又做出了四项基础性的贡献,每一项都足以让他获得国际声誉。他提出了置信区间理论,它对于统计理论与数据分析中的重要性怎么估计都不会过高。他对传染分布理论的贡献在生物学数据处理中十分有效。他的总体分布抽样法为一种统计学理论铺平道路,让我们收益颇多——其中就包括盖洛普民意测验。他以及费希尔的彼此带有不同的随机化实验模型的工作,开辟了在农业、生物学、医学和物理学中广泛应用的全新实验领域。
       但与此同时,他在生活上,尤其精神上却越发困顿:他不能获得相应的待遇——直到1938年他离开伦敦学院的时候,都还只是讲师,一直薪金微薄,生活拮据,什么原因呢?这就不能不提一个人——费希尔——自从赢得了对老皮尔逊的学术斗争之后,他就成为了统计界新的巨星。内曼和小皮尔逊的工作缘起是在费希尔的工作之上,所以两人对费希尔都是相当尊敬的。其实内曼只小费希尔五岁,但在费希尔面前,他确实把自己当做小字辈的。小皮尔逊由于父亲的牵累,从来不受费希尔待见;但一开始,内曼和费希尔的关系还是很融洽的。
    内曼和费希尔的决裂发生在1935年,内曼在皇家统计学会发表他和他在波兰的学生一起合作的,题为农业实验统计问题的论文。
      内曼“桃李满天下“,他的学派长盛不衰,从二战后到今天,统计界众多享誉世界的一流学者,追根溯源都是内曼的徒子徒孙(他的助手或者学生的学生的学生……)。特别的,看到这篇文章的读者,只要你在中国学过统计,十有八九也是内曼学派的一员。
       你一定听过这样一个故事:
二战期间,美军曾调查了飞机上的中弹分布,决定在弹孔最密集的机翼部分增加防护,以减少飞机被击落的概率。有位统计专家却提出异议,恰好相反,应该加强弹孔最少的机身和机尾部分,这是因为:我们能看到弹孔多,说明这个部位多次中弹飞机仍然可以飞回来;而我们看到弹孔少,是因为一旦中弹,飞机可能根本就飞不回来了!
       幸存者偏差!都上高考题了,谁人不知,谁人不晓啊?但你知道,故事里被誉为“一己之力改变了二战进程“的传奇统计学家是谁?他叫亚伯拉罕.沃尔德(Abraham Wald)。他就是被内曼看重,最先从欧洲引进作为自己助手的数学家。沃尔德深大概受内曼影响,做学术和管理都是一把好手,创立了统计决策论,还曾发展和管理过美国又一著名统计学圣地——哥伦比亚大学统计系。可惜48岁遭遇空难过早地离世,不然一定还会有更大的成就。
你一定还听过这样一个故事:
某研究生上课迟到了许久,悄悄溜进教室,发现了教授在黑板上留下的两个问题,也不好意思问,便以为是家庭作业。没想到这次作业出奇地难,他苦思冥想好几个月,但终于做出来了。交给教授一看,简直让人喜极而泣:学生交的作业,其实解决了他在课上给学生们科普过的本学术领域的两个重要的open problem!
       很多人以为这只是个段子——确实,这是电影《心灵捕手》里最令人难忘的桥段。但这件事的确真实发生过!这个学生叫乔治.丹捷格(George Dantzig)——是内曼的得意门生之一。(不用想,你已经知道故事里的教授是谁。)丹捷格一毕业就被征调去军方了(和沃尔德类似),他后来是斯坦福大学的教授,是运筹学的鼻祖人物,他最为人们熟知的成就是他发明了单纯形算法——这是解决一般线性规划问题的核心算法。
如果你在中国学过统计,你一定还会知道这个名字——许宝騄先生——他是我们中国统计界伟大的先驱、中国统计学派的祖师爷。
        他不仅因为卓越而高产的学术成就,为后世铭记;更是作为统计界的一代宗师,永载史册。
   但也许很多人不知道,许先生其实是小皮尔逊和内曼在英国最杰出的弟子。尤其是内曼,特别欣赏许先生——20世纪40年代,他在伯克利最想招募的人就是许先生。但内曼的聘书,由于国内战乱,通信受阻,许先生一直没收到,但不知为何,哥伦比亚大学的聘书却寄到了。所以许先生先去了哥伦比亚,之后才得知恩师内曼一直召唤他去伯克利。但好在两边都是熟人,大家友好协商,许先生就一半的时间在哥伦比亚,一半的时间在伯克利。许先生一直心系祖国,辞谢了恩师的多次挽留,于1947年回到北京,创中国数理统计之先河。
        所以可以说,中国每个学统计的人都是许先生的徒子徒孙,自然也更是内曼的徒子徒孙了,哈哈。多少人突然惊喜地发现,平凡的自己身上竟然传承着一大学术名门望族的血脉。
 内曼于1981年去世,享年87岁。
       他不仅因为卓越而高产的学术成就,为后世铭记;更是作为统计界的一代宗师,永载史册。

声明:本文参考转载自勤学堂,仅做分享使用


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多