分享

统计中的骗局

 linqiaozhi 2012-08-15

致谢语:

  在多方的帮助下,经过广泛的收集,我得到了散见在本书各章当中的关于狡辩和欺诈的小例子。在我通过美国统计学会发出呼吁后,许多专业统计学家--请相信我,他们和其他人一样痛恨统计资料的滥用--从他们自身收集的资料中为我提供了大量的实例。这些人,我猜想,将乐意成为无名英雄。同样,我在许多书籍中发现了有价值的案例,仅列出其中主要的书籍:Martin A. Brumbaugh Lester S. Kellogg所著的《商业统计学》;Hadley Cantril的《公共观点的测定》;Willard Cope Brinton的《图表表示法》;Frederick E. Croxton Dudley J. Cowden的《实用商业统计学》;George Simpson Fritz Kafka的《基础统计学》以及Helen M. Walker 的《基础统计方法》。

  Darrell HuffⅠ

  序言:

  我的岳父从爱荷华州到加利福尼亚州不久便对我说:"你们这儿治安不好。"在他所阅读的关于加州的报道的确如此。但是,这些报道通常来自一份爱荷华州的报纸。这份报纸不会轻易忽略掉加州发生的任何犯罪行为,虽然它也报道本州的谋杀案,但看起来它更乐意大肆渲染加州出现的同类情况,而且还因此而闻名。

  我岳父得出的这个结论是建立在明显有偏样本基础之上的,是一个随意的统计结论。类似于其他更为精致的统计结论,也存在着证据与结果不匹配的问题,因为这些结论都在假定:报纸专栏中对犯罪行为的报道是测量犯罪率的工具。

  几年前,十来个调查人员独立地发表了关于抗组织胺药的试验数据。所有的数据都证明,在经过抗组织胺药物治疗后,相当高比例的感冒能够治愈。这一结论引起了传媒的大肆宣传报道,抗组织胺药的广告铺天盖地,医药界也掀起了此类药物的生产热潮。人们对健康永恒不变的追求造就了这种热潮,但奇怪的是,人们拒绝越过统计资料去注意一下早就了解的事实。正如一位幽默的非医学权威人士,亨利·G·菲尔森(Henry GFelsen)不久前所指出的--正确的治疗的确能在7天内治愈感冒,但是即使不进行任何治疗,感冒也能在一个星期内痊愈。

事实往往在所见所闻之外。平均数、作用关系、趋势和图表总是与看上去的不一致。虽然经验告诉我们"眼见为实",但眼睛告诉我们的"真相"或许隐瞒了部分事实,或许夸大了事实。

  统计这种神秘的语言,在一个靠事实说话的社会里是如此地吸引眼球,但有时它却被人利用,并成为恶意夸大或简化事实、迷惑他人的工具。在报告社会经济趋势、商业状况、民意调查和普查的大量数据时,统计方法或者统计术语是必不可少的。但如果作者不能正确理解并恰当地使用这些统计语言,而读者又并不能真正了解这些术语的含义,那么,统计结果只能是废话一堆。

  在科能技主题的文章中,经常充斥着滥用统计资料的现象,每一个数据都很有力地打消你的疑虑,都张着嘴告诉你这是对的,但是人们很难联想到这样一种场景:灯光如豆的实验室中,"白衣英雄们"仍在不计报酬、不辞辛劳地包装这些数据。统计,就像最神奇的化妆术,只要略施粉黛,东施尤胜西施。巧妙伪装的统计资料胜过希特勒的弥天大谎,虽然它也会引起人们的误解,但制造它的人却能巧妙脱身。

  这本书是一本如何利用统计瞒天过海的入门读物。看上去,它很像骗子的行骗宝典。但或许我可以模仿一个已退休的窃贼--如何神不知、鬼不觉地撬开一把锁,他的回忆录达到了研究生课程的水平--替这本书说句公道话:毕竟,骗子对于行骗的技巧早已胸有成竹,而诚实的人出于自卫也应该掌握它。
 第一章 内在有偏的样本

  有一个装着红、白两色豆子的桶,如果你想要准确知道这个桶中两种豆子的数量,你惟一能做的只有一颗一颗地数豆子。

  用一种更简单的方法也可以揣测红豆的数量:抓一把豆子,假定手中红豆的比例与桶中红豆的比例相同,只要数一数手中的豆子即可。如果你的样本足够大,并且选择方法正确,在大多数情况下它能够很好地代表整体。但是,如果以上两个条件不满足,这样的样本比一个臆想好不到哪儿去,除了能够营造科学精确的假象之外,其他则根本不值一提。不幸的是,我们所看到的,或者我们自以为了解的许多事物,往往都是根据类似样本所得出的结论,这种样本可能变得有偏,由于选择方式的不合理或者容量过小,抑或两种情况同时存在。

  通过一个极端的例子可以马上看到如何形成有偏的样本。假设你向同胞发放问卷,问卷中包含这样一个问题:"你乐意回答调查问卷吗?"整理所有的答案,你很有可能得到下面的结论:"一个选自总体、典型的横截面"中,压倒多数的人选择了"乐意"。为了具有说服力,你还可以详细列出这个比例,直至最后一位小数。事实上,大多数持否定意见的人,已经随手将你的问卷丢进最近的纸篓中,从样本中自动除名了。哪怕最初的样本中,10个里面有9个会当这种"投手",在宣布你的结果时,你仍然会遵从惯例,忽略他们。

  现实生活中,样本会按照上述方式变得有偏吗?相信我,一定会。

  不久前,报纸和新闻杂志上报道:近10年来美国大约有400万名天主教徒变成了基督教徒。资料来源于由丹尼尔·A. 波林(Daniel A. Poling)牧师主导的调查,丹尼尔·A·波林是教派组织《基督教先驱报》(Christian Herald)的编辑。《时代》(Time)杂志描述了整个故事的梗概:

  "通过对全美基督教牧师的横截面展开调查,《先驱报》得到了调查结果。调查共发出25000份问卷,其中2219名牧师反馈回了问卷,回收的问卷显示:在过去10年里共有51361名原罗马天主教徒变成了基督教徒。根据样本推算,波林得到了全国范围的估计:近10年来全美共有4144366名天主教徒改变信仰,变成了基督教徒。主教威尔·奥斯勒(Will Oursler)写道:'即便考虑到误差,全美范围内这一数据也不可能少于200万或者300万,而且很有可能接近500万。'"

  虽然《时代》没能指出真相的关键之处,但是它却使我们了解到被调查的牧师中超过90%的人没有回答,这已经值得我们向它鞠躬表示敬意了。为了彻底破坏调查结果的可信度,我们只需要指出:这个"500"是不可靠的,因为调查中有高达90%的牧师没有发表看法,或许他们中大多数都早已将调查问卷投进了纸篓。

  根据以上判断,我们利用管辖范围内所有牧师人数,即181000--该数据就是波林博士计算时所采用的数据--进行自己的推算。由于从181000名牧师中抽取了25000人接受调查,得到了改变信仰的教徒为51361人,如果调查全部牧师,转变信仰的总人数应该约为370000人。


 我们这种粗糙的方法产生了一个十分可疑的数据,但是它至少与那个在全国范围发布的数据一样"可靠",而后者却是前者的11倍,是的,300万看上去更加令人欢欣鼓舞些。

  至于奥斯勒先生充满自信的那句话"考虑到误差",好吧,如果他发现了一种方法足以弥补未知量所带来的误差,那么整个统计界都将会为之感激涕零。

  在上述背景下,让我们来研究一则以前的新闻报道:"1924级的耶鲁毕业生平均年收入为25111美元",要知道几年前的钱是更值钱的。

  好家伙,他们干得真不赖!

  可是,等一等,这个令人印象深刻的数字到底意味着什么?是否像表面看到的那样,足以证明如果你把你的男孩送进耶鲁大学,或者牛津大学,那么在年老时,你就不需要辛苦地上班,甚至他将来年老时也不用上班?

  在充满怀疑的惊鸿一瞥后,关于该数字的两个疑点凸现出来:它惊人的精确;它大得令人难以置信。

  对一群相隔千山万水的人,了解他们的平均收入,而且竟然精确到以元为单位,这几乎不太可能。就算是自己去年的收入,除非全部来自薪水,否则也很难知道得如此准确。但是对于年收入25000美元的阶层来说,投资渠道更广,因此他们的收入不可能完全来自于薪水。

  而且毫无疑问,这个可爱的平均数出自耶鲁人之口。即使1924年他们在纽海文译者注:纽海文是美国东北部康涅狄格州的一个城市,耶鲁大学就坐落在这个城市。接受过优良的教育,也很难保证四分之一个世纪后,他们还能坚持说真话。当问及收入时,有些人出于虚荣或者天生乐观而夸大数据;有些人却故意缩小数字,特别当涉及征所得税问题时,往往会犹豫不决,生怕与其他文件填报的数据不符,谁知道税务员又看到了什么?这两种趋势--夸大与缩小,也许将相互抵消,但这种可能性很小。一般而言,一种趋势总会强于另一种,但我们很难猜测哪种趋势将胜出。

  我们试着来解释这个数字,单凭常识就知道这个数字与现实出入很大。现在,让我们找找最大误差的可能来源。是什么使那些实际上收入也许只有25111美元一半的人们最终会拥有如此丰厚的平均收入?让我们来揭开这神秘的面纱。


可以肯定的是:耶鲁毕业生的报道基于对某个样本的分析,因为常识告诉我们,没有人能够掌握所有仍在世的1924级学生的情况,25年后,他们中的许多人已经消失在茫茫人海中。

  并且,在那些能够取得联系的人中,许多人根本不会回答问卷,特别是一个涉及隐私的问卷。一般情况下,邮寄问卷的回收率达到5%10%就已经相当可观了。也许这个调查的回收率会高些,但也不可能达到100%

  因此,这个收入数据建立在一个样本之上:由能够取得联系并愿意回答问卷的耶鲁学生组成。那么,这个样本的代表性强吗?也就是说,能否假设样本与未被样本包括的那些人--无法联系的人或者不愿意回答的人--具有同等的收入水平?

  那些在耶鲁大学毕业生通讯录上被注明"地址不详"的迷路小羊羔是谁呢?他们是高收入阶层吗?华尔街的金融家、公司领导层,亦或是制造企业或公用事业的总裁?不,要找到富人的地址根本不难。这个班级最显赫的人,即使忽略了与校友办公室联系,他们的地址也可以通过查《美国名人录》(Who?s Who in America)或其他参考资料找到。因此,我们可以较合理地推测,那些被遗漏的人在获取耶鲁文学学士以后的25年间,他们没能实现自己光辉梦想,他们是小职员、技工、流浪汉、失业的酒鬼、仅仅得以糊口的作家或艺术家……将六七个甚至更多这种人的收入相加才可能达到25111美元。他们不会在班级的联谊会上注册,仅仅是因为他们支付不起路费。

  又是谁会将调查问卷丢进最近的废纸篓?我们不太肯定,但是猜想他们中大部分人并没有赚到足以炫耀的数目。他们的心态有些类似于第一次拿到工资的小职员,当他发现工资支票上粘着一张小纸条,建议保密工资并不要将工资作为与同事的谈资时,"别担心,"他对老板说,"我与你一样,对这么低的工资感到羞愧。"

  很明显,样本遗漏了可能降低平均收入的两类人。让我们见识一下25111美元的庐山真面目:如果它是一个真实的数据,它也仅仅代表了1924级耶鲁学生中能够联系上的,并愿意站出来说出收入的一个特殊群体。当然,它的真实性还需要满足这个假定:这些绅士们说的都是真话。


我们能否过于轻率地做出这样的假定呢?来自抽样理论的一个分支,即市场研究的经验告诉我们,人们会说真话的假定往往是不可靠的。以前曾经做过一项了解杂志读者阅读量的上门调查,其中的一个主要问题是:"你和你的家人阅读什么杂志?"当将调查结果制表并分析后发现:喜欢《哈泼斯》(Harper's)杂志的人相当多,这本杂志如果不能说是曲高和寡,但至少也是品位不俗;而喜欢《真实故事》(True Story--一本定位大众化杂志的人就不多了。但是几乎同时期的、由出版商提供的数据很明显地显示出相反的结果:《哈泼斯》杂志的发行量只有几十万份,而《真实故事》杂志的发行量却多出了百万份。正如这项调查的设计者所疑惑的,也许他们问错了对象,但这又并不可能,因为上门调查走访了美国范围内各式各样的居民区。惟一合理的解释是许多被调查者,即那些调查中回答问题的人没有说实话,几乎所有的调查都无法阻止人们往自己脸上贴金的做法。

  最后你将发现,当你想知道到底什么人在读某本杂志时,询问是无济于事的。直接上门去告诉他们你想收购旧杂志好了,看看他们能提供什么,这样你才能掌握更多的信息。你只需要清点一下《耶鲁评论》(Yale Reviews)和《爱情罗曼史》(Love Romances)各自的份数就够了。当然,即便采用这种方法也只能说明人们曾经买了什么,而不能确定人们读过些什么。

  同样,当你下次看到普通美国人(最近,这个词频繁出现,但大多数情况下却是不现实的)每天刷牙1.02次时,虽然这个数据是我瞎编的,但它与别人的数据一样好用。请问自己一个问题:不管是谁,他怎样才能发现这个事实呢?在看了铺天盖地的、宣传不刷牙是对社会冒犯的广告之后,一名妇女还会向陌生人承认自己不经常刷牙吗?这个统计资料只能对那些希望了解人们如何看待刷牙的人才有价值,却根本不能反映牙刷接触牙齿的频率。
我们知道,除非在某处安装了泵站,否则一条河流永远不可能高于它的源头。同样的,根据样本得到的结论不会比样本更精确。当数据经过层层统计处理,最后简化为一个带小数点的平均数时,结论似乎闪耀着精确的光芒,但只要再仔细留心整个抽样过程,这个光芒就会消逝。

  为了确保结论有价值,根据抽样得出的结论一定要采用具有代表性的样本,这种样本才能排除各种误差。这就是耶鲁的收入数据失真的原因,它也是你在报纸和杂志中读到的许多资料根本不值一提的原因。

  一位心理医生曾经写道:实际上每个人都有点神经质。暂且不去管这种提法是否破坏了"神经质"一词的含义,我们来看看这个医生的样本,也就是说,他观察了哪些人才得到了上述结论?事实上,他是在对他的病人进行研究后才得到了这个发人深省的结论,这和代表全体人的样本可差的是十万八千里。想想看,如果一个人心理健全,他是永远都不会接受心理医生的治疗的。

  对你所读到的东西多思考一下,你将避免接受许多似是而非的结论。

  记住下面这点是有益的:无形的误差与有形的误差一样容易破坏样本的可信度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。事实上误差总是存在,如果你仍旧半信半疑,想想1948年和1952年的美国总统大选,它们已足够证明这一点。(1948年美国选举时,所有民调都显示民主党的杜威会获胜,结果却是杜威败给了共和党人杜鲁门,这是美国历史上至今最大的"选举惊奇"1952年美国大选,新闻传媒普遍看好民主党竞选人史蒂文森,最终共和党候选人艾森豪威尔以绝对优势赢得这场选举。)

  更远的例子可以追溯到著名的《文学文摘》(Literary Digest)的惨败,这件事发生在1936年。曾经准确预测了1932年美国大选的1000万个电话用户和《文学文摘》订户,他们又对1936年的大选结果进行了预测,他们向那个倒霉的杂志编辑信誓旦旦地保证:兰登(Landon)将在竞选中脱颖而出,并且与罗斯福(Roosevelt)的所得票数之比为370∶161。这样一个久经考验的调查群体怎么可能产生误差呢?但的确有误差,正如后来许多大学论文和其他史学分析人员所发现的,1936年就有能力购买电话和订阅杂志的人并不能代表所有的选民,至少在经济上,他们是一个极特殊的群体,是有偏的,后来证实他们中的许多人是共和党的选民。该样本选择了兰登,而全国选民却心系罗斯福。

 最基本的样本是随机样本,它是指完全遵循随机原则从总体中选出的样本。总体即形成样本的母体。把索引卡片文件夹中每隔10个的名字抽出来,从许多纸张中任意抽出50张,在皮卡迪利大街译者注:皮卡迪利大街是英国伦敦市一条繁华的街道。每遇见的第20个人作为访问对象。(但需要注意的是,在最后一个例子中,总体并不是全世界的人,也不是全体英国人或者所有旧金山人,而只是当时在皮卡迪利大街上的人。一个进行民意调查的访问员宣称,她选择在火车站进行调查的原因是"在那里能遇到所有类型的人。"不过,不得不向她指出的是,某些人比如婴儿母亲的代表性并不足。)

  随机样本的检验方法是:总体中的每个名字或每个事物是否具有相同的几率被选进样本?纯随机样本是惟一有足够把握经受统计理论审查的样本。但它也有不足之处,在很多情况下,获得这种样本的难度很大并且十分昂贵,以至于单纯考虑成本就会排除它。分层随机抽样是一个更经济的替代品,目前在民意调查和市场研究等领域中得到了广泛的应用。

  为了获得分层抽样下的随机样本,你需要将总体按照事先已知的优势比例划分出不同的组。这时你就可能遇上麻烦:关于分组比例的信息可能并不正确。你对访问员进行指导,以确保他们调查到一定数量的黑人,按照这样或那样的比例调查属于不同收入阶层的人,调查一定数量的农民,等等。同时,每一组人中40岁以下和40岁以上的人数相同。

  这听上去很不错,但实际上会怎样呢?在黑人还是白人的问题上,大部分时候访问员能够准确判断。但在收入分组时,他会出很多错。至于农民,你如何划分一个在城镇上班又有部分时间种地的人?即便是岁数的问题也会引起差错,为了确保准确性,访问员会挑选那些看上去明显小于40岁或明显大于40岁的人进行调查。在这种情况下,由于缺少40岁左右的人而导致样本有偏。你不可能获得可靠的结果!
除此之外,你如何在各层内部获得随机样本呢?最有效的办法是准备好每一层内部所有单位的名单,并调查那些被随机抽中的单位。当然,这耗资不菲。于是你转而进行街头调查,但由于遗漏了那些窝在家里的人而变得有偏;你在白天挨家挨户地上门调查,又把大部分上班族给弄丢了;转而改成晚上访问,又忽略了那些看电影和去夜总会的人。

  民意调查最终将演变为一场与误差的持久战。所有信誉良好的调查公司始终战斗在第一线。调查报告的读者应谨记这点:这场战斗永远不可能取得胜利。在看到"67%的英国人反对"某事或其他类似的字眼时,应保留这样一个问题:67%的哪部分英国人?

  阿尔弗雷德·C·金西(Alfred C. Kinsey)博士近期出版的《男性卷》和《女性卷》也存在这个问题。书中的人虽然已经证实了是不折不扣的新潮人物,但是由于抽样过程与随机抽样实在差得太远,调查结果仍然受到了质疑。抽样名单包含了太多接受过大学教育的人(女性中该比例达到75%)和服刑人员,这已经够糟糕的了,但是更严重的缺陷是样本极有可能严重偏向于有自我宣传性行为倾向的人,而且人们很难察觉到这个缺陷。当谈论的主题与性有关时,那些沉默寡言的、对着满怀希望的访员说不,并对于那些将自己从样本中淘汰出局的人,他们与主动站出来说出全部的家伙在性行为上存在很大的差异。

  布鲁克林学院(Brooklyn College)的A·H·马斯洛夫(A. H. Maslow)所作的一项研究表明:上述推断不仅仅是猜测。他的研究样本中包括了许多女学生,后来她们都主动参加了金西博士的访谈。马斯洛夫发现:一般而言,这些女孩子在关于性的问题上观念更开放而且有更多的经历。

  当我们阅读金西的书,或者阅读任意一个近期关于性行为的研究成果时,关键的问题在于如何理解它,才能避免学习到一些根本就不是那么回事的东西。在任意一个基于抽样的研究中,这个问题都十分严重,当你将你的"大部头"或者主要的研究报告采用通俗的手法进行概括时,这个问题会更加严重。
首先,在与金西相类似的工作中,至少包含了3次抽样。正如以前所指出的,从总体中抽出的样本(第一次抽样)远不能称为随机抽样,因此可能对所有的总体都不具备显著的代表性。同样重要的是,我们还需要了解到:任何一个调查问卷都只不过是所有相关问题的样本(第二次抽样)。而绅士或者女士们所给的答案也只不过是他(或她)关于每个问题的态度或者经历的样本(第三次抽样)。正如在其他调查中发现的那样:由哪些人组成调查人员会对结果产生有趣的影响,金西的调查也可能如此。二战期间,美国民意调查中心(The National Opinion Research Center)派出了两组调查人员对某南方城市的500名黑人进行提问,问题只有3个。一组调查人员由白人组成,另一组是黑人。

  其中一个问题是:"如果日本占领美国,你认为黑人的境况会得到改善还是变得更糟?"黑人组成的调查组,9%的被调查者回答"变好",而白人调查组该比例只有2%。回答"变坏"的比例也不相同,黑人调查组只有25%,而白人调查组则达到45%

  用"纳粹分子"替代"日本",两组的结果大体相同。

  第三个问题试图探测被访者的真实态度,这种态度以前两个问题所表现出来的感受为基础。"你认为目前致力于打败轴心国(the Axis)比在国内进一步推进民主更重要吗?" 在黑人组成的调查组中,选择"打败轴心国"的比例是39%,而白人组成的调查组则是62%

  这是由莫名因素造成的误差,恐怕其中最重要的因素是被调查者迎合对方说好话的倾向,当我们在阅读调查结果时必须考虑到这一点。在战争时期回答一个暗含是否忠诚的问题时,一个南方黑人对白人说了一些听起来不错但并不代表他真实想法的话,这不是很正常吗?当然,区别的起因也可能在于不同的调查人员选择了不同的对象进行交谈。

  在上述例子中,结果如此明显有偏而导致毫无价值。你可以试着自己分析还有多少民意调查的结论,虽然并无有效的方法揭露它们,但却同样有偏,同样无价值。

一般而言,民意调查都带有一定方向的误差。就像前文所举《文学文摘》例子的偏差一样,如果对此表示怀疑,你还可以找到许多恰当的例子来证明。在《文学文摘》的例子中,与希望代表的全体选民相比,由于偏向了比平均选民收入更高、受过更多教育、信息面更广、反应更快、举止优雅、行为保守、更多固定习惯等特点的群体,而产生了误差。

  为什么会这样呢?下面的例子将有助于你理解这一点。假设你是一个被分配到街道某个角落进行调查的人员,有两个看上去符合调查要求的人--年龄大于40岁的黑人农民--向你走来,一个人穿着干净制服,上面打着整齐的补丁,感觉整洁清爽,而另一个人看上去肮脏、态度粗暴。为了完成工作,毫无疑问你会向更加符合要求的人走过去,而遍布城市其他角落的你的同事也会做出同样的抉择。

  一些反对民意调查的最强烈的情绪来自于自由主义者或是左翼集团,他们普遍认为这些调查都是人为操纵的。这种观点背后的事实是:民意调查结果经常与那些思想开放人士的观点和意愿不相符合。他们指出,民意调查的结果选择了共和党人,但不久之后选票者却做出了相反的选择。

  但实际上,正如我们前面所看到的,民意调查并不一定是被操纵了,也就是说,并不一定要为了制造假象而恶意扭曲结果。样本有偏的趋势本身就可以自动地操纵结果,使其变得扭曲。

  本章小结:

  为了确保结论有价值,根据抽样得出的结论一定要采用具有代表性的样本,这种样本才能排除各种误差。

  无形的误差与有形的误差一样容易破坏样本的可信度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。

  最基本的样本是随机样本,它是指完全遵循随机原则从总体中选出的样本。总体即形成样本的母体。

  随机样本的检验方法是:总体中的每个名字或每个事物是否具有相同的几率被选进样本?

  纯随机样本是惟一有足够把握经受统计理论审查的样本。但它也有不足之处,在很多情况下,获得这种样本的难度很大并且十分昂贵,以至于单纯考虑成本就会排除它。分层随机抽样是一个更经济的替代品,目前在民意调查和市场研究等领域中得到了广泛的应用。

  一般而言,民意调查都带有一定程度的误差。

第二章 精心挑选的平均数

  我相信你不是一个势利小人,而我也并不做房地产生意。但请让我们作这样的假定,并且假设,此刻你正在一条我熟知的街上看房子。对你的情况进行了初步判断后,我巧舌如簧、费尽心思地让你相信附近居民的平均年收入大约有10000英镑。也许这坚定了你要在此居住的信心,不管怎样,买卖最终成交了,那美妙的数字也被牢记在你的脑海。而且,既然你已经买下了房子--你有那么一点势利,当与朋友聊天时,你就会不经意地流露出你居住的地点:我住在一个相当棒的高收入小区。

  一年左右过后,我们又见面了。作为某纳税者委员会的成员,我正在四处奔走,为降低税率、降低财产估价,或降低公共交通费用而呼吁。我的理由很简单,我们支付不起各种上涨的费用,毕竟,附近居民的平均年收入只有2000英镑。也许你会加入到我们委员会的工作中来--你不仅势利,而且还挺吝啬。但是,当听到那可怜的2000英镑时,你也禁不住大吃一惊。到底是我现在撒谎了呢?还是一年前撒了谎?

  其实这两次你都无法怪罪于我,利用统计撒谎的妙处被展现得淋漓尽致。无论是10000英镑,还是2000英镑,它们都是正规的平均数,计算方法也完全正确。两个数字都基于相同的数据,来自相同的居民,根据相同的收入。所有都是相同的,但显然其中有一个数据令人误解,足以与弥天大谎相媲美。

  我的花招就是两次分别使用了不同的平均数,"平均数"这个词宽泛的涵义帮了大忙。当一个家伙希望用数据影响公众观点,或者向其他人推销广告版面,平均数便是一个经常被使用的伎俩,虽然偶尔是出于无心,但更多的时候是明知故犯。所以,当你被告知某个数是平均数时,除非能说出它的具体种类--均值,中位数,还是众数,否则你对它的具体涵义仍知之甚少。


  在希望数值较大时,我使用的10000英镑是均值,也就是附近居民收入的算术平均数。你只要将所有家庭的收入加起来并除以家庭总户数便可得到这种算术平均数。数值相对较小的是中位数,它告诉我们一半家庭的年收入超过2000英镑,另一半家庭的年收入不及2000英镑。我还可以利用众数--所有家庭收入序列中出现次数最多的那个收入。例如,附近的居民中年收入为3000英镑的家庭数是最多的,那么收入的众数就是一年3000英镑。

  在这个例子中,不合适的"平均数"实际上是毫无意义的,只要碰到关于收入的数据,这种情况就经常出现。还有一个因素会让我们困惑不已--某种条件下,各种类型平均数的数值十分接近,如果出于一般的目的,根本没有必要区分它们。

  比方说,当你看到某个原始部落男性的平均身高为5英尺时,你对这些人的外形条件就能有很好的了解,根本不需要进一步询问这个平均数是均值、中位数或者众数,因为此时各种平均数的数值大致相等。(当然,如果你正在为非洲人赶制一批制服,那么就需要比平均数更多的信息,你要用到全距和标准差,这些我们将在下一章进行介绍。)

  在处理诸如人类特征的数据时,各种平均数的数值十分接近。这些数据具有我们常说的正态分布的形态特点,在你用曲线绘制正态分布时,将看到一根钟形的曲线,均值、中位数和众数都落在相同的点上。

  在描述人类身高时,用哪种平均数无关紧要,但在描述他们的钱袋时,却并不是那么回事儿了。如果把某个城市所有家庭的年收入都列出来,你会发现,这些数从很小的值变动到很大的数,也许有20000英镑左右,甚至还能看到少数巨额收入。年收入低于5000英镑所占的比例超过了95%,在收入曲线上朝左边拖出了一条长长的尾巴。这种分布不再像钟形一样对称,而是有偏的,它的形状类似于孩子玩的滑梯,梯子一侧是陡斜地升到顶部,而滑道一侧则缓慢向下倾斜。均值与中位数相差甚远,这样一来,比较去年的"平均数"(均值)与今年的"平均数"(中位数),这种比较的有效性就不言而喻了。

 在我卖给你房子所在的居民区里,两个平均数的差距如此之大,因为收入是显著偏斜的。你的邻居中大多数都是小农、在附近村庄上班的工薪阶层或是靠养老金为生的退休老人,但有3户邻居是百万富翁,他们仅仅是来此度周末。就是这3户邻居的收入提高了总收入,相应地抬高了算术平均数。这样一来,均值达到了绝大多数家庭遥不可及的水平,几乎每个人都低于平均数。虽然这听起来像是笑话或者文学修辞,但的确是不争的事实。

  当你听到公司执行总裁或企业所有者宣称,在他的企业中员工的平均收入是多少时,你应该好好思考一下其中的原因。如果这个数是中位数,你可以获得一些显而易见的信息:一半员工赚得比它多,一半比它少。但如果是均值(请相信我,没有确切指出它的种类时,多半是均值),它仅仅是所有者25000英镑的高收入与全体工人低水平收入的平均数,根本没有什么意义。"平均年收入为3800英镑"既隐瞒了1400英镑的低收入,又隐瞒了所有者以巨额薪金形式抽取的高额利润。

  这类似于双人拉锯--现实情况越糟,看上去却越好。在一些公司的声明中也会采用这种方法。让我们试着举个简单的例子来说明。假设你是某个小型制造企业的3个合伙人之一。这是丰收的一年,到了年底,你给企业的90个职工共发了99000英镑,他们的工作是生产、运输椅子,或者你所经营的任何东西。你和其他合伙人每人各获得5500英镑的工资;最后还余下21000英镑,作为利润可供你们3个合伙人平分。你将如何说明这种情况呢?为了便于理解,你打算采用平均数的形式。既然所有的职工从事相同的工作,获得同样的收入,对于他们来说用均值还是中位数没有区别。说明如下:

  职工的平均工资…… 1100英镑

  所有者的平均工资及利润…… 12500英镑

  看上去太不公平了,不是吗?让我们来试试另一种形式:从利润中拿出15000英镑以奖金的形式平分给3位合伙人。这一次将包括了所有者和职工的工资进行平均,不要忘记还是采用均值,结果变成:

所有人员的平均工资或薪金…… 1403英镑

  所有者平均利润…… 2000英镑

  哈,看上去好多了吧。虽然还能进一步改善,但这已经有了长足的进步,总额中只有低于6%的部分形成了利润。如果乐意,你还可以继续如法炮制。但不管怎样,现在的结果已经足以作为公布的内容张贴在公告栏中,或者作为与职工谈判的依据。

  因为简化,这个例子是十分粗糙的。但和以会计的名义所做的手脚相比,它简直就是小儿科。从薪水微薄的打字员到领取80万美元奖金的总裁,在这样一个等级森严的复杂公司中,所有事情都可用类似的方法进行掩盖。

  因此,当你看到某个平均收入时,首先问问:是什么的平均?包括了哪些人?美国钢铁公司(the United States Steel Corporation)曾经指出:10年间,该公司职工的平均周收入攀升了107%。确实如此,但是当你注意到早期的数据包括了兼职员工时,奇妙的增长率会大打折扣。也就是说,如果你某年只工作了半年,而第二年全年都在工作,你的收入毫无疑问会翻番,但这并不意味着工资率发生了变动。

  你也许曾在报纸上看到过,某年美国的家庭平均收入是6940美元。别太在意这个数字,除非你知道这个数字包括了哪些家庭,以及使用了哪种平均数。(甚至这是谁说的,他是如何获得该信息的以及这个数的准确性你都要知道。)

  上述数据来自于普查局(the Bureau of the Census)。如果手头有普查局的整篇报告,你将不费吹灰之力地弄清楚所需要的其他信息。首先,这是个中位数;其次,"家庭"是指两个或更多具有亲属关系的人住在一起所形成的"家庭"。如果再回过头读一下表中的数据,你还将发现这个数据建立在抽样基础之上,该调查以19/20的概率保证真实的数值会落在估计值加减71美元的范围之内。

  类似的概率和误差范围构成了一个很好的估计。普查工作者掌握了足够的统计知识和足够的财力,如果没有特殊的企图,他们能够将抽样研究结果控制在较好的精度范围之内。但并不是所有的数据都出自这种严谨的环境,也不是所有的数据会附上关于数据精确度的任何说明。在下一章,我们还将展开详细的分析。

同样,对《时代》杂志"编者的话"栏目中的某些项目,你会表示怀疑。该杂志这样描述他们的新订户:"他们年龄的中位数是34岁,家庭平均年收入为7270美元。"早期关于"旧时代"读者的调查发现,"年龄的中位数是41……平均年收入为9535美元……"一目了然的是,为什么两次谈到年龄时都指出采用了中位数,而关于收入却不明确平均数的类型。也许收入使用的是数值较大的均值,以达到利用高收入读者群吸引广告商的目的。

  对第一章开头所提到的1924级耶鲁学生的平均收入,你同样可以提这样一个问题:这里用的是哪种平均数?

  本章小结:

  所以,当你被告知某个数是平均数时,除非能说出它的具体种类--均值,中位数,还是众数,否则你对它的具体涵义仍知之甚少。

  在处理诸如人类特征的数据时,各种平均数的数值十分接近。这些数据具有我们常说的正态分布的形态特点,在你用曲线绘制正态分布时,将看到一根钟形的曲线,均值、中位数和众数都落在相同的点上。

  当你看到某个平均收入时,首先问问:是什么的平均?包括了哪些人?

  类似的概率和误差范围构成了一个很好的估计。

第三章 没有披露的数据

  某位统计专家曾经建议,在被告知某个调查的结果时,你需要做的就是反问一句:"为了得出这个结论,你调查了多少名被访者?"

  正如以前曾指出的那样,采用严重有偏的样本几乎能够产生任何人需要的任何结果。只要样本容量足够小,或者你尝试足够多的次数,正确的随机样本也可以达到上述效果。

  "用户反映使用多克斯(Doakes)牌牙膏将使蛀牙减少23%",大字标题历历在目。你希望减少23%的痛苦,于是接着往下读。你发现这些结论出自一家信誉良好的"独立"实验室,并且还经过了注册会计师的证实。有了这些,你还想知道什么呢?

  然而,如果你不是特别容易轻信他人,或者不是一个盲目乐观的人,经验将告诉你:一种牙膏很难比其他牙膏好。那么多克斯公司是怎样制造了上述结论?如果是说谎,但用大字标题报道这些谎言,他们又如何能够逃避责任呢?事实是,他们根本无需说谎,下面便是简单而有效的方法。

  这里的主要把戏是不充分的样本--统计角度的不充分。但对于多克斯公司来说已经足够了。只有当你读小字体的文字时才会发现:被测试的用户仅由12人组成。单凭这点,你便不得不佩服多克斯公司,它留给你一个可能知道全部情况的机会。有的广告商索性将类似的文字都略去,留给读者--即便他是一个老练的统计专家--一个猜想:这里面到底玩了什么把戏?从这个角度来说,多克斯公司由12个人组成的样本还不算太坏。几年前,一种叫做可尼斯博士(Dr. Cornish)的牙粉上市了,并宣传"在治疗龋齿方面获得了极大成功",因为该牙粉中含有尿素,而经过实验室的证明,尿素对于治疗龋齿是有益的。然而,由于实验室的工作只是刚刚起步,仅仅建立在6个案例之上,毫无疑问这个结论是缺乏意义的。

  下面,让我们再回头看看,多克斯公司是怎样轻易地获得一个不存在漏洞并经得起检验的标题。让规模不大的一组人连续记录6个月的蛀牙数,接着使用多克斯牙膏。之后一定会发生以下的其中一种结果:蛀牙明显增多,蛀牙明显减少,或者蛀牙数量无显著变化。如果是第一或者第三种结果,多克斯公司编档保存好,当然最好是藏在别人找不到的地方,然后重新实验。由于机遇的作用,迟早有一组被测试者将证明有很好的效果,并且这个结果足以好到作为标题直至引发一场广告战。事实上,不管实验者使用的是多克斯牙膏,还是发酵粉,或者还是继续使用原来的品牌,上述结果都会发生。

  任何由于机遇产生的差异,在大样本的使用中都是微不足道的,不足以作为广告标题。例如,蛀牙减少2%将不会对销量有多大的提升作用。这更显示了使用小样本的优势。

  给定一个足够小的样本,怎样才能完全依靠机遇形成毫无指导性的结论呢?这个事儿你自己也可以试试,而且几乎不费劲。让我们开始抛一枚便士,有多少次是头像朝上的呢?当然是一半的次数,这谁都知道。

 好,让我们检验一下……我刚刚抛了10次,有8次头像朝上,实践证明头像朝上的概率为80%。那么,关于牙膏的数据也一样。现在,你自己试一下,也许你会得到5050的结果,但更有可能是别的结果。你我的结论以相同的可能性偏离5050的比例。不过,如果你有足够的耐心,抛上1000次,你基本上(虽然不一定)能得到一个接近半数的结果,它才代表了真实的概率。只有在进行了足够多次的实验后,平均数定律才是一种有用的描述,并可用来预测。

  那么,多少才算够呢?这又是个棘手的问题。它取决于其他的因素,即你采用抽样方式所研究的总体容量有多大、变动程度有多大。值得一提的是,有时样本的规模与看上去的并不一致。

  这里有一个典型的案例:几年前,有个小儿麻痹症疫苗实验。一个社区中有450名儿童接种了疫苗,而680名儿童作为对照组没有接种疫苗。看上去,这是个极大规模的医学实验。不久,该区域感染了流行病,在接种疫苗的儿童中,所有人都没有患上小儿麻痹症。对照组的儿童也没有发生。这是怎么了?其实在设计实验时,实验人员忽略了或者没能真正了解到该病的低发生率。一般情况下,这种规模的小组预计只会产生2名患者。因此,实验从一开始便注定是毫无意义的。也许将规模扩大到1520倍才能产生足以具有说服力的结果。

  许多伟大的医学发现--即使昙花一现--也都是同样地急急上马,"要快,"医生这些话归功于威廉·奥斯勒(William Osler)爵士和爱德华·利文斯顿·特鲁多(Edward Livingston Trudeau)。你可以随便选择一个,既然他们都是医生,而且对这个题目都很内行。也许他们都说过这句话,顶多一两个词不同。说,"在还来得及之前,尝试用新的治疗方法。"

  我们不能总是只怪罪于医务职业者,有时公众压力和草率的舆论宣传,也会促使没有经过证实的治疗方法匆匆上马,特别是当需求很大而统计背景又很模糊时。这也是以前流行的感冒疫苗几年后卷土重来,从而导致近年来抗组织胺药越来越多的原因。由于疾病的不确定性和缺乏逻辑的严密性,造成了许多不成功"治疗方法"的流行。其实,只要有足够的时间,感冒会自行痊愈。

那么,你如何避免被不科学的结论所愚弄呢?是否每个人都必须成为自己的统计专家,并亲自研究原始数据?情况并非那么糟。在这里,我们介绍一个易于理解的显著性检验方法。简单地说,它是一种反映检验数据以多大的可能性代表实际结论、而不是代表由于机遇产生的其他结论的方法。这便是那些没有透露的数据--假设你是个外行读者,你就不会明白其中的奥秘,但如果你掌握了这个方法,你将理解其中的企图。如果某条信息的来源提供了显著性程度,你将对它有更深的了解。显著性程度通常简单地用概率来表示,就像普查局以19/20的概率保证他们的结果是正确的。大多数情况下,5%的显著性水平已经足够,但是如果有更高的要求,就需要1%的显著性水平,这意味着以99%的概率保证该结果是真实的,任何类似的事情"在实践上几乎是确定"的。还有另一类没有透露的数据,它的遗漏也同样具有破坏性。这类数据表明了事物的变动范围以及与给定平均数的偏离水平。通常情况下,单凭一个平均数来描述事物过于简单,起不到作用,不管这个平均数是均值还是中位数,也不管平均数的具体类型是否已知。对实际情况一无所知经常比获得错误的信息要好,也比知之甚少要安全。举个例子来说,为了满足统计出来的平均家庭,即3.6人的家庭,建造了过多的房子。3.6人的家庭意味着家中有34个人,需要两个卧室的房子。虽然是"平均"规模,但是实际上,这种规模的家庭只是所有家庭的少数。"我们为普通家庭建造平均规格的房屋。" 制造商这么说的同时,却忽略了占很大比例的、有更多人或更少人的家庭。导致的后果是某些地区重复建造两个卧室的房子,而低估了更大或更小规模家庭的需求。这是个由具有误导性的、信息不完全的统计数据而造成巨大浪费的实例。对此,一家大型的公共健康团体指出:"当越过算术平均数,去分析实际的家庭人口范围时,我们发现3人或4人的家庭仅占全部家庭的45%,而35%1人或者2人,剩下的20%则多于4人。"
在如此精确而且具有权威性的3.6人面前,常识黯然失色。它莫名其妙地战胜了人们通过观察便可发现的事实:许多家庭规模比之小,还有相当一部分比之大。

  几乎以相同的方式,《格塞尔常模》(Gesell?s norms)中遗漏的数据给许多父母带来了痛苦。让我们做这样的假设,就如同许多父母在阅读《星期天》(Sunday)报纸所做的一样,当一对父母读到 "孩子"将在某月份学会坐直的内容时,他们会立刻联想到自己的孩子。如果恰恰孩子在指定的月份还不能坐直,他们一定会认为孩子智力迟钝、发育不正常,或者得出其他同样令人哀怨的结论。既然一半的孩子在那时都还坐不直,那将会有很多家长为此苦恼。当然,从数学的角度来说,这些不愉快将与另一半聪明孩子家长的喜悦相互平衡。但是,当不开心的家长做出种种努力使孩子与标准一致时,将产生很大的伤害。

  所有这些并不是为了责备阿诺德·格塞尔(Arnold Gesell)博士或者他的方法。错误出在向下传递信息的筛选过程。信息从研究者经过耸人听闻或所知不多的作者,最后传递给读者,读者根本无法察觉这个过程中遗漏的信息。如果能给常态或者平均数加上反映范围的指标,许多误会将消除。当发现自己的宝贝属于正常范畴时,父母则不必为微小且无意义的差异而担心。几乎没有人能在所有方面都恰好符合标准,就如同抛100次硬币,几乎不可能正好出现50个正面和50个反面。

  将"正常的""期望的"混为一谈,导致事情变得更糟。格塞尔博士仅仅描述了一些通过观察得到的事实,是那些阅读书和文章的父母错下结论:晚一天或晚一个月学会走路的孩子是低能儿。

  由于将正常误解为好的、对的、应该如此的等价物,许多人对阿尔弗雷德·金西博士的那篇著名报告作出了愚蠢的批评,虽然也许他们几乎没有认真读过这篇报告。金西博士被指责有教唆年轻人的嫌疑,因为他向他们灌输某些观念,特别是他将各种普遍存在却未经认可的性行为称为正常。实际上,金西博士只是指出他发现这种行为很普遍,因此称之为正常,但是他并没有为这些行为贴上许可的标记,这些行为是否符合规矩并不属于他的研究范围。只是他恰巧涉及了一个使许多人头疼的话题,涉及这样一个高度敏感的话题却不迅速表明你是支持或是反对的态度,看来是十分危险的。

这些没有透露的数据,其欺骗性在于:人们经常忽略了它们是否存在。这当然也是它取得成功的奥秘。报界批评家--其作风与现在的批评家一样老练--一直哀叹新闻工作者缺乏严谨的跑新闻的工作作风,并严厉地指责"椅子记者"--那些缺乏批判意识、仅靠重写政府报道混日子的人。从新闻杂志《两星期》(Fortnight)的"新的工业进步"栏目中挑选一条新闻:"来自西屋(Westinghouse)的消息:一种能提高钢材硬度两倍的新冷轧槽已经发明。"从中可一窥报界的无所作为。

  听上去真是有了长足的进步,可是直到你要认真研究这到底意味着什么时,才会发现:它实际上像水银球一样令人难以捉摸。是否这种新的冷轧槽使所有种类的钢材硬度达到未处理前的三倍?又或者它能产生一种硬度是以前所有钢材三倍的新钢材?它是如何做到的?看上去,记者仅仅只是写了一行文字,却并没有弄清这些文字的真正含义,同时期待着读者抱着能学到某些东西的快乐幻觉下,毫无批判精神地读这些文字。这容易使人联想起对采用讲课方式进行教学指导的古老定义:这是一个将教师书中的内容在没有经过双方大脑的情况下,转化成学生笔记的过程。

  几分钟之前,当我查阅《时代》杂志关于金西博士的内容时,突然想到了另一则类似的报道,这些报道只要多看一眼,就会像危房一样坍塌。这是1948年一些电力公司联合推出的广告:"今天,超过3/4的美国农场接上了电……"听上去真不错,这些公司真是尽职尽责。当然,如果你是挑剔的人,你还可以这样解释:"将近1/4的美国农场还没接上电。"但真正的把戏却并不在此,而在于使用"接上"这个词。用了这个词,电力公司可以把事情描述成他们所希望的任何效果。很明显,"接上"并不意味着所有这些农场已接通了电,否则,广告上一定会如实报道。据我所知,他们的"接上"只能说明电线从那些农场经过,或铺设在离开农场几十或者上百英里的范围之内。

 让我引用一篇文章的标题--《现在就来预测孩子将来长多高》(You Can Tell Now HOW TALL YOUR CHILD WILL GROW),这篇文章刊登在一个大众化的杂志上。文章中的两张表格特别抢眼,一张适用于男孩,另一张适用于女孩,这两张表给出了每个年龄阶段孩子的身高与最终身高的比例。"预测孩子长大后的身高,"标题如是写道,"只需要利用现有的身高,再查表中的比例即可。"

  可笑的是,只要你继续往下看,便会发现文章本身就指出了这些表格的致命缺点。所有孩子的生长方式并不是完全一致的。有的一开始长得很慢,却突然长高;有的暂时很高,然后速度趋缓;还有的人在整个过程中相对平稳地成长。这两张表,正如你所疑惑的,是基于进行了大量测量之后所取的平均数。对于随机抽取的100名年轻人,利用这两张表格预测他们未来的总身高或者平均身高,毫无疑问是足够准确的。但是,家长感兴趣的只是一个孩子的具体高度,对于个体,这两张表是没有价值的。如果真的想预测孩子未来的身高,父母及祖父、祖母的身高或许更有用,尽管这种方法和上述表格一样并不科学,也不精确,但结果的准确性至少相当。

  我很高兴地指出,在14岁到高中接受军训时,我站在最小班级的后排,利用当时记录的身高做一个预测,我的最终净身高为5英尺8英寸,但是,现在我已经有5英尺11英寸了。在人类身高中,3英寸的差距足以说明这是个差劲的估计。

  在我面前有两盒葡萄坚果薄饼的包装纸。它们来自于不同的生产批次,这一点从产品鉴定上就可以看出。其中一个引用了双枪皮特(Two?Gun Pete)的形象,而另一个写道:"如果你想像霍皮(Hoppy)一样……你就得像霍皮一样吃。"它们都提供了说明图("科学家证明是真实的!")来证实这些薄饼"2分钟之内开始提供能量!"一张图被大量感叹句所包围,其纵轴标有数据;而另一张图却遗漏了这些数据。既然没有关于这些数据的任何说明,有没有这些图都一样。两张图都有一条急剧攀升的红色曲线,曲线代表着"能量释放",但是其中一条曲线开始于吃葡萄坚果薄饼一分钟后,而另一条却开始于两分钟后。一条曲线的攀升速度看上去是另一条的两倍,这暗示着连制图者都不清楚这两张图能说明什么问题。



  当然,类似愚蠢的数据只会出现在青少年或者早晨疲倦不堪的父母眼前。没有人会用这种统计废话来挑衅一个著名商人的智商……难道有人会这么做?让我给你看一个广告代理机构用于宣传自己的广告(我希望它不会让人感到疑惑不解),它刊登在《财富》(Fortune)杂志的专栏中。图中曲线意欲向人们显示这家广告公司年复一年惊人的发展趋势。但图中没有一个数字,这样一来,它既可以代表一个骇人的发展速度,每年翻番或增长几百万美金,又可以意味着在年十亿总收入的基础上,增加一美元或两美元相对稳定的蛇状爬行。但仅从图上看,其发展速度让人印象深刻。

  当遗漏了上述的重要数据时,我们需要对平均数、图表或者趋势保留一些怀疑。否则,你会和一个仅仅根据平均气温选择野营地点的人一样盲目。也许你会认为,61华氏度是个不错的年平均气温,而在加利福尼亚州,如果仅根据平均气温,却忽略气温的波动范围,你可能会在内陆沙漠或者远离南海岸线的圣·尼古拉斯群岛两者中进行选择,那么,你不是被烤焦就是被冻僵。因为圣·尼古拉斯群岛气温的波动范围是4787华氏度,而沙漠气温的波动范围是15104华氏度。根据以往60年的记录,俄克拉荷马城具有十分相似的平均温度:60.2华氏度。但是,正如你从下图所看到的,这个舒适凉爽的数字遮盖了130华氏度的气温波动范围。

  本章小结:

  多少才算够呢?这又是个棘手的问题。它取决于其他的因素,即你采用抽样方式所研究的总体容量有多大、变动程度有多大。值得一提的是,有时样本的规模与看上去的并不一致。

  这里介绍一个易于理解的显著性检验方法。简单地说,它是一种反映检验数据以多大的可能性代表实际结论,而不是代表那些由于机遇产生的其他结论的方法。

  通常情况下,单凭一个平均数来描述事物过于简单,起不到作用,不管这个平均数是均值还是中位数,也不管平均数的具体类型是否已知。

  当遗漏了上述的重要数据时,我们需要对平均数、图表或者趋势保留一些怀疑。


第四章 毫无意义的工作

  乔赛亚·斯坦普爵士(Sir Josiah Stamp)曾经描述过这样一个场景:伦道夫爵士(Lord Randolph)正在检查一份税收报告,私人秘书站在他的身后,当看到与去年同期相比海关税收增加了34%时,伦道夫感到很满意。

  秘书马上纠正他,指出增长率只不过才.34%

  "这有什么区别?"伦道夫爵士问道。

  当听到一个数值是另一个的100倍时,伦道夫说:"我以前经常可以看到位于数字前的小数点,但是直到现在我才真正知道它们的作用。"

  在比较考试成绩时,不单单是小数点,甚至其他一些讨厌的细微差异也会突然冒出来给大家造成困扰。为了举例说明,只要你不介意,我们将赋予你两个孩子,顺便给他们起了很时髦的名字。如同许多受教育的孩子一样,彼德(Peter)和琳达(Linda)接受了智力测试。现在任何形式的智力测试都有点原始伏都教(伏都教:又译巫毒教,源于非洲西部,是糅合祖先崇拜、万物有灵论、通灵术的原始宗教。)盲目崇拜的味道,因此你费了不少口舌来打听测试的结果,这个信息是保密的,一般只有心理学家和教育者才知道,或许这样是对的。但不管怎样,你还是通过某种方式探听到:琳达的智商(IQ)是101,彼德只有98。当然你很清楚:智商的平均数是100,即100意味着"正常"

  哈!琳达是比较聪明的孩子,而且她的智商高于平均水平,彼德则低于平均水平。对此我们先不进行评论。

  任何类似的结论纯粹都是胡说。

  为了澄清事实,我们首先必须指出:无论智力测验测试的是什么,它与我们通常意义上的智商都不会是一码事。它忽略了类似领导才能、创造性想象力等十分重要的素质;它没有考虑到社交判断力以及音乐、艺术或者其他方面的才能;它无法测试出诸如勤劳、情感平衡等重要的人格品质。最主要的是,多数情况下学校进行的智力测试都是简单、低层次的类型,它们极大程度上依赖于阅读能力、测验者反应快慢等因素,不擅长阅读的人根本没有拿高分的希望。


假设我们已经意识到了上述问题并达成共识:智力测验的智商仅仅是一种测量工具,它测量了人们处理事先准备好的抽象问题的能力,对这些能力我们很难给出确切的定义,哪怕彼德和琳达所做的是公认最好的智力测验--修订的斯坦福-比内测验(一种独立进行的并且不需要特别阅读能力的测验)

  智力测试只是智力水平的一个抽样。与其他抽样结果一样,代表智力水平的智商值也具有统计误差,这个误差将用来衡量该数值的准确度或可信度。

  智力测验类似于估计某块地玉米质量时所做的工作,你在地里四处走动,随意地到处摘取一些玉米穗,当剥开并研究了大约100颗玉米穗时,你就能对整块地的质量大致有数。当已知两块地的质量不同,这些信息已经足够对它们的质量进行比较了。但如果两块地的质量接近,你就得摘取更多的玉米穗,并始终采用某种精确的质量标准来给它们划分等级。

  我们可以定量地衡量你的样本以多大的精度代表总体,那就是:可能误差和标准误差。

  假设你要完成一项丈量任务,即通过步测栅栏来了解几块地的大小。你要做的第一件事自然是检查丈量体系的准确性,通过多次步量后量出自认为的100码,你发现平均而言有3码的误差。这意味着,有一半的试验是你离开真实100码的距离在3码之内,而另一半试验是你与真实100码的距离在3码之上。

  这样一来,在测量100码时,你的可能误差是3码,或者说3%。从此之后,每次被你步量测出的100码应该被记录成100±3码。

  (大多数统计工作者更倾向于使用另一个类似的误差度量工具:标准误差。全部实验中将有2/3的试验落在加减1个标准误差的范围内,而不是刚好1/2的比例,人们还认为标准误差的数学处理更方便。出于分析目的的考虑,在这里我们还是坚持使用可能误差,并将其运用到斯坦福-比内测试中。)

  假设智力测验的可能误差为3%,与我们假定的步量任务具有相同的可能误差。这与智力测验的好坏无关,而只是反映了测验与它所要测试的内容具有怎样的一致性。这样彼德的智商更全面的表达是98±3,琳达的智商则是101±3

这说明彼德的智商以相等的机会落在95101中任何一点上,并且大于或者小于98的可能性完全一样。同样,琳达的智商落在98104范围内的可能性也不过50%。从中你会很快发现:有1/4的可能性彼德的智商将超过101,这与琳达的智商低于98的可能性相同。这样看来,彼德的智商并不低于而是高于琳达的智商,它们之间还有3分的差距。

  我们的结论是:对待智力测验以及许多其他类似的抽样结果应注意它的范围。正常的智商不应该只是100这样一个数值,而应是诸如90110的一个范围。将处于这个范围的孩子与低于或高于此范围的孩子进行比较时会得出一些有用的结论。但比较相差不大的两个数据则毫无意义。你必须在脑中牢记这个加减符号,即使(特别是当)它没有明确给出。

  在所有抽样研究中都有误差,忽略这些误差将导致一些愚蠢的举动。那些把读者调查奉若神明的杂志编辑,是因为他们不了解调查。对于一篇有40%男性读者喜爱的文章与另一篇只有35%男性读者喜爱的文章,他们会刊载更多类似于前者的作品。

  对于杂志而言,40%35%读者人数的差异是很重要的,但抽样调查形成的差别却并不一定是真实的。出于成本的考虑,读者人数调查的实际样本,特别是已经扣除了那些从来不读该杂志的人后,也许只有几百人。对于一本女性杂志,样本中的男性读者会很少。当这些人又根据他们的回答:"全部读了""读了大部分""读了一部分"以及"没看"这篇文章而被划分成四组后,35%男性读者的结论也许仅仅建立在几个人基础之上。隐藏在这个看似显著的数据背后的误差可能会很大,依靠它抉择的编辑并没能抓住一根救命的稻草。

  为了一个数学上可论证,但是却小得没有意义的差别,人们有时会费尽力气。这种行为藐视了一句古训:只有当差别有意义时才能称之为差别。我们可以看一个相关的案例:老黄金(Old Gold)香烟公司利用一个毫无价值的结论制造了大量喧闹并大赚了一笔。


故事起源于《读者文摘》(Reader?s Digest)某编辑的一个偶然想法。该编辑自己抽烟,而且他并不认为各种品牌的香烟完全相同。他的杂志开始行动起来,聘请了一些实验室人员对不同品牌香烟的烟雾展开了分析。杂志刊登了最终结果,列出每种品牌香烟的烟雾中尼古丁以及其他有害物质的含量。在详尽的数据支持下,该杂志声明:所有品牌的香烟是一样的,无论你吸的是什么牌子的香烟,不会有任何差异。

  也许你会认为,对于香烟生产厂商和那些为香烟杜撰崭新广告词的家伙而言,这是一个有力的打击,它还将引爆关于平缓喉痛和对胸部有益的广告索赔案。但某些人却有了其他发现,在一长串具有相同有害物质的品牌名单上,总有一个排在最后,这就是"老黄金"牌香烟。于是,电报漫天飞舞,大幅广告以最大的字体刊登在报纸上。广告的标题和副本仅仅提到,由一家国家级杂志主持的实验证明"老黄金"牌香烟在不良物质,以及尼古丁含量方面"排名最后",任何关于各个品牌的差异并不显著的文字甚至是暗示都被省略了。

  最后,"老黄金"公司被通知"中止并停止"使用这个具有误导性的广告。但这并不要紧,他们早已获得了足够的好处。

  本章小结:

  我们可以定量地衡量你的样本能以多大的精度代表总体,那就是:可能误差和标准误差。

  在所有抽样研究中都有误差,忽略这些误差将导致一些愚蠢的举动。

  只有当差别有意义时才能称之为差别。
第五章 令人惊奇的图形

  人们对于数字似乎有一种天生的畏惧,当汉普蒂·汤普蒂(Humpty Dumpty)译者注:Humpty Dumpty在英语俚语中是指"又矮又胖的人"。充满自信地告诉爱丽斯(Alice),他能熟练地驾驭文字时,恐怕没有多少人能将同样的自信延伸到对数字的掌握上。也许早期的数学经验对我们造成了心灵的创伤。

  不管什么原因,当作者渴望自己的书有人读,广告商希望自己的广告能促进商品的销售,出版商希望自己的书或杂志畅销时,数字产生了真正的问题。很多情况下,表格中的数字是禁用的,而文字又不能达到很好的效果,这个时候解决的方法就只有一种:画图。

  最简单的统计图形是直线类图形。在显示趋势时,直线图形非常有用。而对于趋势,人们总是津津乐道于了解它、发现它、分析它,甚至预测它。下面,我们将用图形来显示国民收入怎样在一年内实现了10%的增长。

  首先,在纸上用相互垂直的直线画出许多小方格。然后,在横轴的底部注明月份,在纵轴旁标上数字,单位是"十亿美元"。在图中点出每个月的国民收入,再用直线将这些点连接起来,你的图形看起来像这样:

  这张图清晰地显示了一年来的变化,而且变化是逐月反映出来的。然而画图者很快就会发现,由于图形纵轴从原点即"0"开始,并且整张图形是按比例绘制的,虽然看上去的确上升了10%--一个了不起的上涨趋势,但是却并不振奋人心。如果你所要做的仅仅是传递信息,那么目的已经达到了。但假如你希望利用图形赢得一场争论、让读者大吃一惊、促使某项行动,或者向他人推销货物等,它就缺乏渲染的效果了。试试把图形的底部抹去,这样不是更好吗?(如果某个爱挑剔的家伙反对这种有误导的变动,你可以理直气壮地指出,这样做节省纸张。)数据是相同的,所以图形也相同,除了图形给人留下的印象不同之外,没有进行任何的伪造。但是粗心的读者现在所看到的是国民收入直线在12个月内上升很快,几乎占据了半张图形,不过,这其实仅仅是因为图表的大部分都已被抹去。就像语法课上遇到的省略句,它们也能被"理解"。但是,眼睛却不能"理解"被抹去的部分,这才导致微小的上升最终变成了惊人的增长。

  既然已经开始行骗,那么就别急着金盆洗手。你还有比之好得多的方法,它能使朴实的10%的增长率看上去比100%的增长率更让人振奋。只需要改变横坐标与纵坐标的比例关系,将纵坐标的每一个刻度缩减为原来的1 /10即可,没有人规定不能这么做,而这将会产生一张更加完美的图形。

  它真的令人震惊!不是吗?任何看到这幅图的人都会强烈地感觉到在国家的各条经济命脉上正快速地积累着大量的财富。这相当于将"国民收入增长了10个百分点"改写成"国民收入惊人地攀升了10个百分点"。显然图形比文字更有效,因为图形中不存在任何形容词和副词来破坏它所具有的客观性幻觉,而且谁也无法指责你。

你还会有一些著名的或至少是受人尊敬的同伴。某家新闻杂志采用同样的方法来表现证券市场创了新高,他们将图形的底部截去,使得图形中的增长比实际情况更加令人欢欣鼓舞。在一则关于哥伦比亚煤气公司(Columbia Gas System)的广告中有一张复制的、 "来自最新年报"的图形,如果仔细阅读图中的数字并进行分析,你将发现10年来生活指数上升了60%,而汽油成本下降了4个百分点。这是一张不赖的图形,但是对这家公司而言显然还不够理想,于是他们将图形顶部截至90%的刻度(纵坐标没有断层,也没有任何文字说明来提示所做的变化),以至于单纯通过观察得出的结论是:生活指数是原来的3倍,而汽油成本则下降了1/3

  为了罗列公众反对工资增长的意见,钢铁公司使用了类似的误导性图形。然而它根本称不上是新方法,人们很早就揭露了其不完善之处,并刊登在许多地方,而不仅仅是统计专业者使用的技术刊物中。早在1938年,《丹斯评论》(Dun's Review)的某个编辑就曾经摘录了一张类似的统计图,该图形出现在一则鼓吹华盛顿广告业的广告中,图形的标题是:"政府支出急剧上升!"尽管图中的折线与标题中的感叹号遥相呼应,但是折线后隐含的数据却并不乐观,仅仅从19500000美元增长到20200000美元。但是图中的那根红色折线从底部激增至顶端,将原本仅仅4%的增长率描绘得仿佛是400%。该杂志利用相同的数据绘制了图形的另一版本,图形的标题是:"政府支出保持稳定",图中的红色折线客观地反映了4%的增长率。

  《矿工》杂志在报纸广告的柱状图中也使用了相似的技巧,但特别用文字指出:柱状图的中部被省略了。

  本章小结:

  最简单的统计图形是直线类图形。在显示趋势时,直线图形非常有用。

  数据是相同的,所以图形也相同,除了图形给人留下的印象不同之外,没有进行任何的伪造。

  只需要改变横坐标与纵坐标的比例关系,将纵坐标的每一个刻度缩减为原来的1 /10即可,没有人规定不能这么做,而这将会产生一张更加完美的图形。

  显然图形比文字更有效,因为图形中不存在任何形容词和副词来破坏它所具有的客观性幻觉,而且谁也无法指责你。


第六章 一维图形的滥用

  几十年以来,我们一直听到"小人物"这种说法,它其实指的就是我们自己。当人们觉得这个词过于卑微后,就改用"普通人",但很快这个提法也被遗忘了。但是"小人物"仍然跟随着我们,扮演着统计图中的角色。

  用一个小人来表示成千上万的人,一个钱袋或一堆硬币表示一千英镑或者百万美金,一片牛肉表示明年牛肉的供应量,这些都是形象的图形表达。由于这种图形非常吸引眼球,所以可以作为一种有用的工具,但同时它也能摇身一变,成为一个老练、狡猾而且成功的骗子。

  形象图形,又称为象形图,它的前身是普通的柱状图,在比较两种或两种以上事物某个方面的具体数量时,柱状图是一种便捷常用的方法。但是柱状图也具有欺骗性:在描述单一物体时,柱体改变宽度的同时,长度也发生变化;在描述三维物体时,物体的体积又不容易进行比较,以上任何一种情况都提醒我们应该对柱状图保留一些怀疑。一个被截短的柱状图与我们曾经讨论过的被截短的折线图实乃一丘之貉。柱状图通常出现在地理书籍、公司声明以及新闻杂志中,也是因为它"迷人"的特性。

  如果我想比较两个数据,例如英国与罗坦提亚(Rotundia)某工种工人的平均周工资,假设数值分别为30英镑和15英镑。为了利用它吸引你的注意,我不会仅仅满足于将数字打印出来,而是画了柱状图。(顺便提一句,如果你去年为了给游廊做一个新扶手而支付的大笔工钱,与这的30英镑不一致的话,请记住你雇用的工人并不是每周都会有这么好的收入。而且,毕竟这里我也没有指明使用了哪种平均数以及是怎样计算得到的,因此它不值得你去争论。瞧瞧,只要你省略了其他一些信息,那么伪装哪怕是最声名狼藉的统计资料又是多么容易呀!也许,你会怀疑我为了举例编造了这个数据,但我敢肯定,如果这里用的是29.55英镑,你就根本不会有这个念头。)

 这就是柱状图,其纵轴的上方注明"英镑/平均每周"。这是张清楚且忠于事实的图形,正如收入是1∶2的比例关系一样,图中两根柱体的比例也是1∶2

  然而这张图形并不吸引你的眼球,不是吗?我可以用比柱体看上去更像钱的东西--钱袋来加以改善。一个钱袋表示不幸的罗坦提亚人微薄的收入,两个钱袋表示英国佬的收入;或者3个表示罗坦提亚人的每周收入,而用6个表示英国佬的每周收入。不管哪种方式,这种图仍然沿袭了真实可信的风格,它不会因为你只是匆忙的一瞥而欺骗你。

  我有其他的目的,我希望说明英国工人比罗坦提亚工人的境况好得多,因此1530之间的差距渲染得越大,我的论据就越充分。老实说(当然这种话我并不会真正说出口),我希望你能从中推断出什么,或者留下一个夸张的印象,而我又不会因此惹上麻烦。下面介绍一种方法,这种方法几乎每天都被用来愚弄人。

  我随手画一个钱袋用来表示罗坦提亚人的15英镑,然后再画一个高两倍的钱袋代表英国佬的30英镑。还是1∶2的比例,对吗?

  但是现在却达到了我所追求的直观感受--英国佬的收入使得罗坦提亚工人相形见绌。

  奥妙的关键在于,既然第二个袋子比第一个高一倍,也应该同样宽一倍,那么占用纸张的空间就不是2倍而变成4倍。数字全是2∶1,但视觉效果却是4∶1,而在大多数时候视觉效果起着决定性的作用。更糟糕的是,既然实际事物往往是三维的,那么第二个袋子还应该比第一个袋子厚一倍,几何知识告诉我们:相似物体体积的变化等于任意相似边长度变化的三次方。于是,222等于8,如果一个钱袋里有15英镑,另一个钱袋里面就不仅仅只装了30英镑,而应该是15英镑的8倍,即120英镑。

  这就是我这富有创造性图形的威力!明明说的是"2",我却最终让你留下了令人震惊的8倍的印象。

  想要怪罪于我,可不是那么简单,因为我只不过在跟风随大流。一家新闻杂志的领头羊也曾经反复使用过类似的钱袋。

美国的钢铁协会(the Iron and Steel Institute)也这么做了,不过用的是一对鼓风炉。他们希望通过图形显示20年来钢铁产量有了大幅度的提升,说明该行业表现出色,从而指出政府的任何干预都是不必要的。暂且不论这个论点多不可靠,然而这么说的好处却优于图形的直接表现。表示前10年增产1000万吨的鼓风炉,其高度仅是表示后10年增产1425万吨鼓风炉高度的2/3。但是眼睛看到的两个鼓风炉,一个却是另一个的3倍。嘴上说的是1.5倍,看起来却是3--这就是一维图形的功劳。

  钢铁协会的这个艺术品还有其他有趣之处。从水平上看,第二个鼓风炉似乎"胖些",其宽度与其邻居的比例失调。同时,鼓风炉内的黑色条块,代表着熔化的铁,其长度看上去是10年前的2.5倍。于是,50%的增长率被画成了150%的增长率,除非我和我的尺子都不去考虑炉子的高度,否则视觉效果又会将其变成1500%的增长率。算术简直变成了魔术。

  虽然似乎过于苛刻,但我们还是需要指出,光滑的彩色页面上同时还提供了一个截短的折线图。通过将图形的下半部分截去,虽然能够节省纸张,但是却夸大了人均钢产量,使产出增长速度攀升了两倍。

  有些例子制图人可以用粗心大意为借口,但就像发现出纳老是少找钱一样,如果所有的错误都对出纳有利,那你就禁不住要怀疑了。

  《新闻周刊》曾经利用图形来证明"美国人长寿了",图形中有两个男性图案,一个代表18791889年间人们的平均预期寿命34岁,另一个代表现代人的平均预期寿命682岁。又是同样的把戏:一个人是另一个的两倍高,按此推理,体积或重量的比例应该是8∶1。这张图形通过夸大事实来达到更好的效果,我把它看成是"新闻炒作"的一种形式,同期杂志上还有一张被截短的折线图,十分惊人。

  在图中改变事物的大小还有另外一个弊端。1860年美国只有800万头奶牛,而一个世纪后该数量超过了2 500万头。通过画两头奶牛来显示产量的增长,一头奶牛是另一头的3倍高,当然,这会以我们探讨过的方式夸大人们的印象。但是对于一个快速浏览内容的读者而言,这幅图将产生更加奇特的效果,他可能很容易就得出一个错误结论:现在的牛要比以前的牛大得多。

  将同样的技巧运用在犀牛上,你会得到下面的图形。奥格登·纳什(Ogden Nash)曾经用"荒诞的""像犀牛一样的"来押韵,"荒诞"一词的修饰作用同样适用于这种方法。

  本章小结:

  形象图形,又称为象形图,它的前身是普通的柱状图,在比较两种或两种以上事物某个方面的具体数量时,柱状图是一种便捷常用的方法。

  柱状图也具有欺骗性:在描述单一物体时,柱体改变宽度改变的同时,长度也发生变化;在描述三维物体时,物体的体积又不容易进行比较,以上任何一种情况都提醒我们应该对柱状图保留一些怀疑。

数字全是2∶1,但视觉效果却是4∶1,而在大多数时候视觉效果起着决定性的作用。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多