分享

读书笔记 | 统计学的秘密,不熟不告诉你

 星星i3d2ongfs8 2016-12-12
主页菌语

在大数据时代,海量信息为认知世界带来深刻变革的同时,也出现了针对传统统计学的争论。有人宣布,大数据意味着我们能处理“总体”,也就不需要抽样,统计学的那套方法已经过时;更多的人反驳,认为统计学仍然是数据分析的核心;还有人说,从样本定义到思维技术,传统统计学都要与时俱进,甚至来一场“革命性的变革”。


说到“革命”,其实在20世纪初,统计学也是一场科学革命的主角之一,它从根本上改变了人们对“数据”的看法,乃至描述和认识世界的方式。今天,面对一堆“杂乱无章”的数据,怎样提出合适的问题,从而认识它们、分析它们、挖掘有意义的信息,仍是一种最基本的研究方法——看似习以为常,却是由来有自。


戴维 · 萨尔斯伯格的《女士品茶》这本书,将平日里我们接触的统计学方法追根溯源、抽丝剥茧,娓娓写出举重若轻的历史故事乃至“八卦消息”。我们中心的小伙伴则作了悉心总结,供您消遣回味。


   


潘雨晴

中国社会科学院公共政策研究中心研究助理


我们经常可以接触到类似“天气预报说明天下雨的概率是90%”、“民意调查的结果显示60%的民众支持某某提案”的讯息。当我们谈论某个地区的实际人口特征时,我们使用的通常是人口普查测得的数据。我们也愿意支持政府的禁烟政策,因为有统计研究表明吸烟会致癌。统计学发展至今,已经彻底改变了我们认知世界的方式,并且渗透到了生活的方方面面。


统计革命如何发生,它又带来了哪些改变?戴维 · 萨尔斯伯格的《女士品茶》一书便以此为核心,描绘了那些参与这场革命的人物以及他们的创造性观点。虽然书中所述远不能囊括统计学的全部内容,但它作为一本统计学入门书,仍具有启发意义。


统计方法的发展


(一)实验设计

在英国剑桥的某个午后,一位女士宣称,将茶加进奶里和将奶加进茶里的做法会使茶的味道喝起来不同。为了检验这个命题是否成立,在座的罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher)兴致勃勃地开始了实验,让这位女士品尝不同方法调制的奶茶并记录她的判断。问题在于,即使这位女士不能区分两者的差异,每次她也有50%的机会猜对;即使她能够做出区分,由于一些干扰因素的存在,例如奶茶没有充分混合或者冲泡温度不同,她仍然有猜错的可能。而我们很难将两者的影响从最终的判断结果中分离出来。依据那位女士判断的对错与否,费希尔算出了各种不同结果出现的概率,以确定那位女士是否真的能作出区分。具体的方法被记录在他所著的《实验设计》(The Design of Experiments)一书的第二章。


《实验设计》是统计革命中的一个重要部分,事实上这里面包含了一个问题,那就是如何把不同的因素对结果的影响分离开来。在20世纪初,费希尔就曾经研究洛桑农业试验站(Rothamsted Agricultural Experimental Station)过去90年的实验记录,指出在这些实验数据中,天气和人造肥料对农作物产量的影响是难以分离的。在对实验设计进行思考后,他的结论是:实验设计的第一步是建立一组数学公式来描述观测数据与估计结果之间的关系。而且实验必须能够让科学家们测定出气候的差异和不同肥料的使用对产量的影响,其中关键的一点就是要加入控制组(controls)进行对照。


在研究一组不同的人工肥料组合对不同品种马铃薯的影响时,费希尔改变了以往将某种人工肥料用于整个农场的做法,而是把土地划成小块,每块地又会进一步分出作物的不同行,对每一行施加不同的肥料。这样做的好处是能够尽量将土壤、排水或者天气等因素对产量差异的影响程度降到最低。另外,考虑到不会有绝对相同的土壤条件,随机化的肥料选择能够在某种意义上抵消不同土壤造成的结果差异。


(二)分布与参数

英国科学家弗朗西斯·高尔顿(Francis Galton)曾收集身高、体重等数据,希望找到利用父母的数据来推断子女数据特征的办法。通过对结果的观测,他注意到了均值回归的现象——如果父母非常高/矮,其子女往往要更矮/高一些。他发现物种特征在代际之间是大致相同的,并为这种关联提供了数学的测度,即“相关系数”(coefficient of correlation)。


他的学生K·皮尔逊(Karl Pearson)则做出了进一步的发展。K·皮尔逊认为,由于不可预见且难以察觉的干扰存在,所有的实验都很难得到单个确切的数值,但我们可以用所有的这些数据来对真值进行近似的估计。换句话说,我们通过实验获得的只是一组散布的数据,或者说是一个数据分布中的样本,而统计模型可以帮助我们描述这些数据的概率分布。


事实上,1820年皮埃尔·西蒙·拉普拉斯(Pierre Simon Laplace)就认为实验误差具有某种分布特征。而K·皮尔逊通过对生物学数据的观测发现,不只是实验误差,测量值本身也同样可以用分布函数来描述,这被他称为“偏斜分布”(skew distribution),它可以由均值、标准差、对称度和峰度这四个参数确定。参数本身虽然无法直接观测,但是可以根据观测值的分布方式推算出来。


此前,科学家们认为自己研究的对象都是真实的,但K·皮尔逊颠覆了这个认知,提出,我们观测到的只是真实的一种随机映像,而真实只能通过分布函数来反映。他的假定是,在理想情况下,科学家们会获得全部的测量值,并确定其分布参数,而在现实中,我们可以收集一个足够大且具有代表性的数据子集,这样就可以准确地测算出真实的参数。


但是科学家们往往很少有机会获得如此大量的样本,威廉·西利·戈塞特(William Sealy Gosset)就提出这样一个问题:在小样本的情况下,我们要如何处理这些必然会存在的随机误差呢?他发现,我们并不需要知道K·皮尔逊提出的四个参数的确切数值,因为均值和标准差的估计值的比率也服从一定的概率分布,也就是我们现在熟悉的t分布(Student's t-distribution)。


事实上,K·皮尔逊并没有意识到,我们根本不可能确定这四个参数的真实数值。按照费希尔的观点,数据的真实分布只是一个抽象的公式,我们的观测值只能用来估计这个真实分布的参数。由于测量值是从所有可能出现的测量值中随机选取的,因而根据随机选取的数据得出的参数估计值本身也具有随机性,服从一定的概率分布。估计的误差是必然存在的,但是我们可以通过一些分析的手段,把误差的程度降到最低,或者让我们有更大的概率接近真实的分布。在此基础之上,费希尔提出了判断估计值的三个标准:一致性、无偏性、有效性,并提出了“极大似然估计”(maximum likelihood, ML)的方法。


在现实的科学实验观测中,人们还发现了一些新的分布模型。例如切斯特·布利斯(Chester Bliss)注意到,无论杀虫剂的浓度有多高,总会有一两只昆虫还活着,而无论他怎样稀释杀虫剂,也总有几只昆虫会死掉。因此,他通过“概率单位模型”(probit model)描述了杀虫剂剂量与使用该剂量时一只虫子会死掉的概率之间的关系。布利斯的模型暗含的类似思想是,我们根本没有办法准确测算出某一个体对药物剂量的反应,只能估计抽象的概率。此外,耶日·内曼(Jerzy Neyman)还发现了用于模拟土壤里昆虫幼虫分布情形的“传染分布”(contagious distribution)。


以上这些统计模型处理的都是可以获得的观测数据,然而我们要怎样用统计模型来分析那些极端事件呢?伦纳德·亨利·凯莱布·蒂皮特(Leonard Henry Caleb Tippett)找到了答案。他发现了一个能把样本数据的分布与极值(extreme values)的分布联系起来的公式,这就是“蒂皮特的三条极值渐近线”(Tippett's three asymptotes of the extreme)。举个例子,当我们知道了极值分布与正常值分布之间的关系,就可以通过每年洪峰的高度记录来预测百年不遇的洪灾发生时最有可能的洪峰高度。


(三)假设检验

对比用观测数据绘制出的图形和用特定数学公式生成的图形,我们能够根据两者看起来相似而证明数学公式正确描述了观测数据吗?事实上,这种用肉眼检验的方式难免会出错,而我们可以通过统计分析进行更加可信的判断。


K·皮尔逊的成就之一就是提出了“拟合优度检验”(goodness of fit test)的方法,它使科学家能够判断一组观测值是否符合某一特定的数学分布函数。通过比较观测值与预测值,皮尔逊构造出一种能对拟合优度进行检验的统计量,即“χ2拟合优度检验”(chi-square goodness of fit test)。χ2拟合优度检验只有一个参数,即“自由度”(degree of freedom)。 当然,除了χ2检验之外,现在常用的还有t检验、F检验。


皮尔逊的拟合优度检验是“假设检验”(hypothesis testing)的先驱,而现在运用的检验方法大部分都是费希尔构造出来的。总的来讲,假设检验是在“待检验的假设为真”的假设前提下,计算观测到的结果发生的概率。当观测结果发生的概率很低时,我们可以拒绝接受这个假设。费希尔把这个概率称为“P值”(P-value)。内曼和埃贡·皮尔逊(Eqon Pearson)在此基础之上发展出了更加简单的检验范式,他们把被检验的假设称为“零假设”(null hypothesis),把其他可能的假设称为“备择假设”(alternative hypothesis)。在他们的公式中设定了一个固定的值,比如0.05,如果显著性检验的P值小于或等于0.05,就拒绝零假设。内曼还提出了区间估计(interval estimate)的方法和置信区间(confidence interval)的概念,用以构造在某一显著性水平(P值)下参数真值的估计区间。例如,如果一直计算95%(P值为0.05)的置信区间,长期来看,参数的真值将有95%的频率落在测算的区间内。


以上这些方法都是建立在参数估计的基础上的。但是弗兰克·威尔科克森(Frank Wilcoxon)发现,实验过程中常常会由于各种原因出现异常值,而这些异常值显著地影响了检验统计量。剔除异常值显然行不通:如何判断数据是不是异常值?需要剔除多少个异常值?异常值被剔除之后是否适用标准的检验统计?于是他提出,可以将观测数据与纯粹随机分布的数据进行比较,这属于一种非参数检验(nonparametric test)。由此,统计学又迈出了革命性的一步,科学家们不需要对参数进行估计也可以进行检验。在此之后,又出现了很多非参数检验的方法。1971年,雅罗斯拉夫·哈耶克(Jaroslav Hájek)提出了非参数检验的一般性理论。


非参数方法是否更好呢?埃得温·詹姆斯·乔治·皮特曼(Edwin James George Pitman)通过测算发现,当数据具有一个已知的参数分布时,非参数检验与参数检验的表现几乎是一致的。而观测值只需稍稍偏离参数模型,非参数检验就会拥有更好的表现。不过R·R·巴哈杜尔(R. R. Bahadur)和L·J·萨维奇(L. J. Savage)也指出,虽然在异常值极少且完全“错误”的情况下,非参数方法可以降低它们在统计分析中的影响,但是如果这些异常值是某种系统性影响的结果,那么采用非参数方法可能只会使问题更糟。


统计思想如何改变了科学与生活


在统计革命之前,决定论的哲学观点主导了19世纪的科学领域,科学家们坚信只需要一组完整的公式和一组精度足够高的测量数据,就能够描述现实世界的一切,并且预测未来即将发生的事件。例如,人们通过公式成功预测出了天体的运动轨道,发现了海王星。还有人试图将这种寻找科学规律的研究方式引入社会学、政治学等领域。


此时科学处理的对象,要么是已有的测量,要么是生成这些测量值的事件。他们认为自己观测到的就是真实,而科学要寻找的是产生观测值的规律。当然,由于测量误差的存在,观测到的数值并不完全准确,例如,天文测量存在的微小误差可能是因为大气状况和测量的人为因素造成的。但科学家们相信,随着测量精度的提高,误差最终会消失。但是人们渐渐发现,更加精确的测量反倒使模型预测值和实际观测值之间的差异变得越来越大,决定论观点开始崩溃。事实上,无论测量多么精确,观测值终究是有误差的。一旦我们接受了这个观点,科学研究中的单个测量值就不再具有明显的意义。伴随着统计革命,科学研究的重点变成了测量值的分布状态。例如,我们对重力常数的测量值永远都不一样,但我们可以研究重力常数测量值的分布,并对真值进行近似估计。


回到前文提过的洛桑农业试验站,费希尔试图将随机事件彼此联系在一起。因此,他通过数学模型建立了小麦收成与年份之间的一般关系,将小麦产量的时间变动趋势分成几个部分,并对参数进行估计。这些被分解的趋势包括:土地退化导致的产量稳定下降;气候在不同年份的差异导致的收成变动;还有其他一些长期的缓慢的变化。现在我们对时间序列数据的统计分析就是在他的思想和方法的基础上建立起来的。


由于差异的存在,还需要考虑的问题是,观测数据只是整体数值分布中的一个样本,那我们怎样保证观测数据产生的估计值可以准确描述整体特征呢?


现在我们普遍接受了这样一种观念:具有充分代表性的小样本可以用来估计总体的特征,关键在于如何实现。一种可能的办法是构造“判断样本”(judgment sample),例如尼尔森收视率排行榜(the Nielsenratings)就是根据社会经济状况和生活地区的差异,选择不同的家庭作为样本,并进行估计。但是只有当我们充分了解整体的特征,比如不同社会经济状况和生活地区的人在整体中的结构构成,才可以准确地判断究竟要从不同群体中挑选多少样本来组建判断样本。尼尔森媒体研究所就曾经被批评,称其抽取的样本中西班牙裔家庭太少,低估了西班牙语电视观众的人数。


普拉桑塔·钱德拉·马哈拉诺比斯(Prasanta Chandra Mahalanobis)的解决办法是采用随机抽样(random sample)。我们可以用统计学理论确保,从长期来看,随机数据产生的估计值比其它数据更接近真值。大萧条时期,美国政府想得到有关失业率的准确数据,在当时的普查中证实了随机小样本调查的结论比之前的判断样本要精确得多。于是随机抽样成为美国劳工统计局和普查局的主要调查方式。随后,这些方法又被引入了民意测验中。并且,我们还可以运用随机抽样的概率分布计算参数的置信区间,现在有些调查除了提供某个问题的支持人数占比之外,还会给出这一比值的上下误差,该做法就是基于上述原理。


现实中的实验设计还存在另一个重要的问题,那就是我们的实验对象并不是完全随机的。例如在癌症研究中,即使治疗方案的分配是随机的,接受治疗的病人依然可能选择改变治疗方法,而强行要求病人坚持原方案显然是不道德的。对此,雷沙尔·皮托(Rechard Peto)提出了意向性治疗的方法,建议在分析过程中以病人最初随机分配到的治疗方案为准,即无论病人之后是否调整了治疗方案,无论病人是否实际接受了这种治疗,这个病人仍被视为采用了最初的治疗方案。这样得出的分析结果虽然不精确,但是是无偏的。不过,这种方法只能用来找不同治疗方案之间的差别,如果显示没有显著差别,也并不代表两种方案的疗效相同。


在公共政策领域也存在着相似的问题。20世纪60年代,美国巴尔地摩市政府想知道公共住宅是否影响低收入人群的社会态度和生活水平。然而,政府分配公共住宅的通常做法是先到先得,而那些最先申请的人往往是最积极、最有进取心的一类人,无论有没有公共住宅,他们都可能比其他人做得更好,这显然会影响到我们的结论。威廉·科克伦(William Cochran)的解决办法是,观察那些住公共住宅以及那些没有住的家庭的特征,如年龄、受教育程度、宗教信仰、家庭的稳定状况等,并建立一个数学模型,将这些因素包含在内。通过参数估计,我们可以判断这些因素对结果的影响力,而剩下的影响就是由公共住宅造成的。现在的计量研究文章中,如果作者声称结果的差异已经根据某某变量进行了控制或调整,那很可能就是科克伦方法的应用。


不过科克伦的方法是高度依赖模型和参数估计的,如果数学模型不能非常准确地描述现实,或者存在异常值,那我们可能无法得出准确的答案。事实上,统计分析中还存在一些非参数方法,在这类方法中,我们不必通过一个预想的模型,就可以挖掘数据背后的内涵。根据格利文科-坎泰利引理(Glivenko-Cantelli lemma),即使我们对一些数据的概率分布一无所知,仍然可以构造一个非参数分布,并通过增加观测值的数量,使之接近真实的分布函数。由于现在计算机已经可以实现大量重复抽样和密集计算,这一思想也得到了极大的发展和应用。


计算机的出现同样也促进了统计思想的革新。计算机储存数据的能力让我们可能需要对庞大的数据组进行处理,例如在疾病研究的观测中,如果我们每次检查都会记录每个病人产生的500个测量值,并且跟踪10次,那么一个病人就会有5000个不同的测量值。如果总共研究2万个病人,那么我们的数据就是一个5000维空间里的2万个点,这极大地增加了数据处理的难度。但是在20世纪70年代,斯坦福的一个研究小组发现,在高维度的空间里,数据的分布并不是分散而无规律的,其中很多的测量值彼此相关,而它们的分布往往集中在较低维度的空间。根据这种思想,斯坦福研究小组发展出了“投影寻踪”(Projection Pursuit)技术,通过在低维空间中的数据投影来分析高维数据的结构特征。


此外,值得一提的是,在贝叶斯(Thomas Bayes)发现条件概率具有内在的对称性之前,人们都是以“前事件”为条件来计算“后事件”发生的概率,例如,对一个病人患癌概率的计算,是以该病人的吸烟史为条件的。但是贝叶斯发现,我们也可以以“后事件”为条件计算“前事件”发生的概率。现在这一思想广泛应用于流行病学的“回溯性研究”(retrospective studies)中。我们可以找一组患有某种疾病的人,和一组没有患病,但是其他方面与病人类似的对照组,在已知病人患有该疾病的条件下,计算某些先前的治疗或条件导致该疾病的概率。


更广义地说,贝叶斯定理对参数估计的思想也有重要的影响——如果我们认为分布参数是根据观测值而随机变化的,那在给定结果的观测数据后,我们也能计算参数的概率分布。而且,按照贝叶斯的理论,事实上参数的分布本身也存在着一个参数,这种层次模型在战争时期的密码编译和破解中得到了应用。原理在于:密码的最终呈现是通过多级编码形成的,如果将原始数字当成观测的初始值,它在每一级的变换形式都具有一定的规律性,可以用参数来描述,那么在给定密码后,通过一层层的参数计算,我们是能够破译密码的。


如今,统计思想的应用还进入到了生产领域。例如,在工业领域有一种质量控制的方法,就是基于统计思想提出的。由于各种因素的影响,同一生产线上出来的产品仍然存在不可避免的差异,然而消费者希望能够保证产品质量稳定可靠。因此,W·爱德华兹·戴明(W. Edwards Deming)提出一种方法,测量从原材料供应到成品出厂过程中每一个环节的产出差异,并要求管理者将产出差异最大的环节作为质量控制的重点,并进行连续性的质量控制,不断提高产出的稳定性。正是因为采用了这种方法,日本工业产品的质量得到了有效的控制。


统计工具应用中的反思


随着统计方法的普及,统计分析已经形成了一种相对简易的范式,人们可以自如地使用统计方法对数据进行处理。然而,我们需要警惕一种倾向,那就是理所当然地运用工具却忽视了数据本身。


我们在设计模型、求解参数,并根据结果提出建议时,如果没有仔细研究过数据资料的结构特征,可能会导致严重的结果错误。1970年,英国内务部调查局有一项研究,是分析不同刑期对男性罪犯出狱后两年内重新犯罪的概率的影响。分析结果表明,刑期越短,重新犯罪的概率越高。因此他们得出一个结论,延长刑期减少惯犯的数量。然而斯特拉·坎利夫(Stella Cunliffe)发现,重新犯罪与刑期的显著关联主要是因为刑期在三个月之内的犯人重犯罪率高。这些人几乎都是年老的、处境悲惨的、精神不正常的人,他们反复犯罪只是因为希望监狱收容。而在研究所用的统计数据中,这同一拨人每次入狱都会被当作不同的样本重复统计,于是短刑期与重新犯罪概率之间的关联被夸大了。她将统计数据重新调整后,重新犯罪概率与刑期长短的显著关联就消失了。


还有一个容易引发争论的话题,那就是统计分析以及它背后涉及到的概率实际上向我们传达的意思是,一个命题“可能”或者“在大多数情况下”是对的/错的。但问题在于,我们测算得到的估计值,究竟在多大程度上可信,显著的P值又是否能够推定因果关系


前面我们已经讨论过假设检验的问题,但事实上费希尔承认,所谓的P值只是在最不可能成立的条件下出现观测结果的理论概率。较大的P值只能代表我们无法根据这组数据作出充分的判断,而不能因为没有找到显著的证据,就判断待检验的假设为真;同样,较小的P值也并不能保证单次的参数估计结果一定准确——如果一个科学家以0.05的标准进行大量检验,那么从长期来看,他会有5%的频率拒绝正确的假设。而在对一些吸烟与癌症研究的批判中,费希尔提出,由于种种缺陷的存在,他们得出的显著结果能够证明相关性,却未必能够证明吸烟是导致癌症的原因。


当然,这背后还涉及到更深层次的哲学问题:概率有何意义?什么是原因与结果?


关于前一个问题,L·乔纳森·科恩(L. Jonathan Cohen)提出几个悖论:在一万张彩票的抽奖活动中,假设有一人中奖,每个人中奖的概率都是万分之一。那么按照假设检验的思路,我们可以拒绝这种极小概率的事件,以此类推,每个人都不会中奖,也就没有人会中奖。或者,假设在一个1000席位的音乐厅,主办方只售出了300张票,但是现场来了1000位观众,根据英国的习惯法,主办方有权向现场每个观众收钱,因为他们逃票的概率都是70%,这样一来,虽然音乐厅只有1000个席位,但是主办方却卖了1300张门票。可以看到,以概率为依据作出的推断有时是不合逻辑的。


关于后一个问题,伯特兰·罗素(Bertrand Russell)曾指出,不同因果关系的实例并不能套用相同的推理逻辑,它们通常是相互矛盾的。他从符号逻辑出发,提出了“实质蕴涵”(material implication)的概念。罗伯特·科赫(Robert Koch)将其发展成为一组用以证明某种病原体将导致某种疾病的假设:只要病原体存在,疾病就会发生;只要疾病没有发生,则病原体一定不存在;当病原体被消除,疾病就会消失。但是对于心脏病、糖尿病、癌症这类疾病,这些假设显然不适用。


当然,统计模型只是我们描述现实的一种工具,它不可能完美地描绘出现实的复杂性。随着积累的数据越来越多,当有一天我们发现统计模型不再适用时,自然还会有一场新的革命出现,正如百年前的统计革命一样。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多