分享

教你识破生活中的统计学陷阱| 科学人

 cpit58 2016-08-28

本文整理自科学人线上沙龙,“教你识破生活中的统计学陷阱”

本期嘉宾



张忠元,中央财经大学统计与数学学院教授,博士生导师。主业是数据分析, 尤其是复杂网络分析,主要讲授统计学、运筹学、数学分析等课程。

从生活中的统计学案例开始

非常感谢大家在周末牺牲自己的业余时间听我唠叨统计学,我们就废话不多说,开始正题。首先从四个案例开始讲起,进入我们今天的活动。

案例一:信仰的力量?

link:http://blog.sina.com.cn/s/blog_b21409a80101espd.html

这是流传甚广的一篇文章《信仰的力量:两个家族200年后的统计》,估计很多人都读过这篇心灵鸡汤。

美国学者A.E.Winship在1900年做了一项统计学研究,比较两个家族两百年的情况,写成Jukes-Edwards一书。他追踪他们近两百年以来的繁衍发展。一个家族从Max  Jukes开始,Jukes是个无神论者,生于1700年。另一个家族从Edwards开始,Edwards是个虔诚的传道人,生于1703年。

 

经过统计,得出了一份鸡汤满满的答案。传道者的家族发展更繁荣,后代中优秀人士更多。看来还是要相信有人管着你,人必须有约束。你所处的环境和你相处的人很重要!相信头上三尺有神灵,相信人在做天在看!这结论就问你怕不怕!

案例二:当年高考状元今何在?

link:http://toutiao.com/a4542631111/

当年高考状元今何在?是一个2015年的关注高考状元职业发展状况的调查。

这个调查文末得出的结论说的是社会对高考状元的职业预期水平与非状元不能相提并论,但是高考状元进入职场之后成为出类拔萃的顶尖人员偏少,由此可知高考状元的成才率低于社会预期。

案例三:癌症发病率和转基因作物的种植有关?

第三个案例是一部长达一个多小时的纪录片,崔永元一行人通过人物访谈、实地调查等方式,以自己的立场为基础,记录了美国转基因食品的现状和人们对转基因食品的观点。

在片子一开始,就请出一位名叫南茜?斯万森的大学教授,展示了所谓“草甘膦使用量和疾病高相关性”的关系图。在图中,南茜?斯万森声称草甘膦使用量和一些疾病呈现显著的正相关,其相关系数可达0.96以上。片中以此暗示了草甘膦是导致这些疾病的元凶。

而这其中也存在着很多统计学的滥用和错用。

案例四:弹孔中的统计学

二战期间,美国陆军航空队找到统计学家亚伯拉罕·瓦尔德,希望他帮助解决一个迫切的问题:美军统计执行任务返回的轰炸机上的弹孔时发现,机身上的弹孔最多,发动机上的最少。他们希望瓦尔德能够计算出,如何增加飞机的抗击打能力。

统计学家给出的答案与预期大相径庭。“在弹孔最少的地方增加防护。”瓦尔德告诉军方,发动机舱弹孔最少,是因为被击中那个位置的飞机很难活着回来”。

这里四个案例先给大家留下思考的时间,我们先来讲一讲统计学的发展,最后我们再回头给大家揭晓这四个案例中的统计学真相。

统计学发展历史

这里做了一个非常粗略的时间线。统计学的内容是非常丰富的,这里仅仅是拿出一些具有代表性的时间点和大家分享。

统计学可以分为频率学派和贝叶斯学派。贝叶斯我们应该有所耳闻。贝叶斯定理的想法就是由他提出的。

贝叶斯在在世的时候并没有受到重视,像我们看到上面他的照片和出生年都是后人猜测的,并不精准。有一篇文章是用贝叶斯方法来估计他本人的出生年月,估计他出生的年月大约是在1701年末至1702年初之间。

时间线里面涉及到很多统计学的方法和模型,大家可以回头自行搜索了解下。随着统计学的逐渐发展,我们能够看到统计学的应用方向也越来越广泛,例如政府统计、生物统计、农业统计、金融、证券、程序规划等等。我们吃的现代药物同样也需要统计学家设计恰当的临床实验方法以证明有效,随后才能上市、卖给患者治疗疾病。GDP、CPI(消费者物价指数)也都需要统计学家的工作。

对统计概念和方法的常见误用

统计方法常被滥用,许多对统计的滥用可能出于无意,也可能出于故意。

那接下来我们来讲解一些常见的对统计学不恰当的使用。

相关不等于因果

 

虚假相关常常存在,原因可能是因为巧合,也可能是因为不恰当的数据处理方法等等。

即便相关性真的存在,相关性也不等于因果性。两件事情是相关的,他们的原因非常多。也许A确实是B的原因,或者B是A的原因,也可能A和B有一个共同的原因,或者A和C共同作用导致B或B和C共同作用导致A。

举例说明,研究发现,阅读科学博客多的人,他的科学素养水平就越高。这两件事情之间是有相关的,但许多人可能就认为这两件事是有因果的。但其实可能是因为受到的教育程度越高,造成你愿意去阅读科学博客,所以科学素养比较高。所以很可能这两件事有共同的原因,很多时候大家会误把相关当成因果了。

曾有人研究鼻咽癌和粤语的关系,给出的结论说,"广州人常说粤语及移居国外仍常说粤语的人鼻咽癌患病率较高;患变应性鼻炎的人鼻咽癌发病率明显偏低。" 这个结论就是很明显地误把相关当成因果,说粤语的人的确容易患鼻咽癌,这两者的确是有相关性,但这之间不是因果,南方人说粤语同时爱吃槟榔,嚼食槟榔我们有明确的医学证据,在物理和化学因素上易造成鼻咽癌。所以说粤语和得鼻咽癌是有相关性,但不是因果的。

但是我们很多情况之下不需要知道因果,即可做决策。大数据时代是不是就不用再研究因果,只要知道相关就可以做出决策了呢?这件事是有争议的。我个人认为还是要研究因果的。因为科学研究最重要的、最基本的出发点和目标点就是要满足全人类的好奇心,就是要知道内在的机理,如果我们不追求因果就很难了解它,并违背做研究的初衷了。其次,我们如果不知道因果,就难以做深层的决策。

所有的统计模型都该有前提条件 

所有的模型都是有应用的场景的,是有前提条件的。如果应用场景不适合、前提假设不满足,则模型的使用不会得出恰当的、有意义的结果。

接下来我们来解释P-value。要分析一个事情的机理,我们必须先做一个假设,然后我们看观察到的数据和假设的兼容性如何,兼容性越低,P-value越小,说明假设正确的概率越低,那么我们可以认为假设是错的。

比如说我们制药,我们会先默认这个药是无效的,因为有效是罕见的情况。那么我们默认药物是无效的,然后透过临床分析方法获得数据,观察数据和假设是不是兼容的,最后若发现很不兼容则可以拒绝此假设,进而相信药物是有效的,所以p-value是一个重要的工具。

但是p-value有没有缺点呢?p-value表达的是观察到的数据和假设之间的兼容性的问题。P-value只能说明手里的数据和假设是不兼容的。那么数据到底是不是可靠?数据采集和分析的过程是否是恰当?若我们都只采用p-value来判断是看不出来的。这是其一。

其二,我们收集到的数据和假设一看很兼容,那我们可能可以通过“裁剪”数据得到不兼容的结论。另外我们收集数据常用抽样的方法进行分析问题,得到的结论有可能是巧合。p-value的使用很重要,但不是万能的。要如何恰当的使用p-value呢?首先要诚实。数据不能精巧的裁剪,数据使用要透明,不能只报告对自己有利的,得到的P-value最好能有领域内的其他文献、专业知识来进行验证。还有就是如果条件允许,最好做重复的实验。因为大量的实验都是抽样得到数据,若能每次的数据都和原假设不兼容,那么原假设是错误的可能性就非常大。所以,一个p-value是0.01、另一个是0.04,但做了重复性实验或者有领域内知识做支撑,这样两者之间谁的结果更可靠还未可知。p-value是重要的但不能作为唯一标准。

个案不能说明问题

 

上面这张图,一个老奶奶吸烟、喝酒,可是活得很久。她也承认很多人这么做都比她早去世,但另一个人就此把吸烟喝酒当做了长寿的秘诀。

个案不能说明问题的原因很多,最基本的就是缺乏对照组来研究。比如说通过调查显示,高考状元都是说汉语的,所以要加强语文教学。这样说是不对的,因为缺乏比较、对照。其实我们都是在比较中增加知识、经验的,用个案来支撑观点是很不恰当的。

误导性的图表

非常常见的错误还有误导性的图表。比如说我们看下面这张信息图表:

现在的信息图表会用一些形象的图形来体现,若是要体现武器就用坦克图片、要探讨不同国家的人口多少就用国旗的大小来表示。上图两张图都是用圆形图来说明投资在不同疾病上的钱数和疾病死亡的人数之间的关系,想要说明的是在某些疾病上投入了很多钱,但这些疾病却并非是死亡率最高的。那左边这张图的问题在哪里呢?图形想要表示的是A是B的2倍,但是在画图的时候,把A的直径画为B的2倍,这样面积其实是4倍,这样很容易就误导成A是B的4倍。所以在看这种信息图的时候要小心不要被误导,必须谨慎。右面的图就是用面积来体现,这样表达才没有因为面积的放大而显得那么夸张。

下面还有几个在画图的时候常见的坑,我们来一一了解一下。

第一个,Y轴不从零开始,这样很小的差异,其实会把差异变得非常大、产生很大的误导。

第二个,相关性误导成因果性。上图是一个相关性的图表,它们两个其实是没有因果性的,但是把他们画在一起,因为读者的思维定式,还是很可能认为他们是有因果关系的,所以画两个相关的线一定要小心谨慎。

 

最后来看这张地图,这是英国苏格兰要求脱英的地图,绿色是反对脱英、红色是支持的。从图上来看,反对脱英的人口好像很多,但事实上反对脱英的人占了百分之五十五,赞成脱英占了百分之四十五左右。为什么会产生这样的情况呢?因为人口密度不均匀的,红色的那块是城市、虽然面积小,但人口密度高,所以在地图上展示会给大家带来误导。那我们要怎么画地图呢?地图上不能画绝对数,用相对数乘以面积才有意义。大家画和看地图都要小心。

一个小时这么快就过去了,现在我们回过头来讲讲文首的案例。

一个是信仰的力量,这个案例说明"个案不能说明问题"。做统计分析要有对照组,但对照组也不能瞎对照,尤其把两个个案进行对照是不对的。

上面这段视频是我从电视上看到的,缺乏领域内的专业知识并将个案作为事实进行比较,这都是是滥用统计的经典例子。最开始提到的高考状元的例子,也是缺乏对照组。

 

之前我还讲到飞机弹孔的例子,虽然大家可能都听过,但这篇原文大约是一百页。它并非我们写成鸡汤那样一拍脑袋就说明了,还有许多相关的研究做支撑的。

样本数量太少难以取得?

我们在研究问题时当然是样本数越多越好,所以统计学在大数据时代是大有作为的。但是很多情况下样本数据本身不会很多,例如信用卡的欺诈数据等等,统计学有专门的方法和模型来研究这种情况。

最后,我们来看几个统计学运用不当造成的笑话吧。

 一:庆祝生日有助于延长寿命,因为统计表明那些活得越长的人过的生日也越多。这是典型的相关不等于因果。

二:绝大多数人都拥有腿的数量都高于平均值,这较为显著,但世界上绝大多数人的收入水平都高于中位数呢?

 我曾经给果壳网写过一个评论型文章,评论的文章是:男人做家务,死亡率降一半?标题党!| 科学人。这篇文章的标题是《家务劳动降低中国男人的全因死亡率和癌症死亡率》,而其实文章写的是干家务劳动和男人死亡率之间是相关的,这篇文章题目误把相关当成了因果,所以我们一定要时刻提醒自己。

如何避开统计学陷阱?

那我们如何可以避免统计学的诸多陷阱呢?

我们看材料时多看一手材料、多看原始材料、有信息源的资料,少看二手材料。因为二手材料里头可能掺杂许多个人观点、甚至误读。

最重要的一点是,要以科学的结论作为自己的行为准则,可以多听听"科学家共同体"的意见,这是最可靠的信息来源。这是非常重要的。

果壳网就是一个非常好的科普网站,平台很大,这是事实。基本上所有的科学网站、科技媒体都会介绍最新的科研论文,但它是否通过科学家共同体的认同呢?所以若将这些平台的消息作为生活的行为准则是不太恰当的。期刊文章也是一样。科研论文可能也有不恰当的地方,大家想作为准则,一定要听听科学家共同体怎么说。比如说最近韩春雨老师的论文,它发表在非常好的科学期刊上,但目前科学家内部还是有很多的争论,若是把韩春雨老师的科研论文作为完全经得起推敲的结果,这是不对的,要经过科学家内部的论证。但是我相信韩春雨老师能够恰当地回复科学家内部的质疑,让科研成果早日变成科学家共同体的共识。

精彩答疑

Q:请问张老师 您平时向家人,和身边朋友普及推广统计学知识的时候, 一般会推荐哪些信息渠道? 比如,书,网站,个人博客,杂志等 如果可以,多请分享一些 谢谢。

A:若各位不是专业人士,并不是各个领域的专家,只要多听听科学家共同体的意见就可以了。我自己在生活中也是这么做的。科学家共同体比如世界卫生组织、美国统计学会、美国儿科学会,他们会有非常专业的意见。

Q:请问张老师:您作为一枚学神,可不可以站在统计学的高度,对我们 养成好的学习习惯提一些小tips?谢谢张老师!

A:首先我不是学神(笑),习惯方面我觉得要有耐心吧!勤能补拙,有一句话"耐心就是天才"我是非常认同的。

Q:您好张老师,对于从来没有接触过统计学但想自学的人,要从哪些书入手?想学习一些实用性高的统计学技能,有哪些细分方向可以选择?谢谢!

A:入门的书非常多,大部分书的基本结构是差不多的。统计学问题十分广泛,关键是看你想要做什么,再去找相关的书。

Q:张老师,您好,如果要学统计学,工科背景,从什么教材入手,国内的统计学教育和国外的统计学教育有什么区别,国内本科统计学去国外深造能不能得到认可?

A:目前国内、国外的差距越来越小了。理工科在中国的发展非常快,许多科学家在非常认真工作,所以国内本科生去国外深造还是很有优势的。

Q:希望老师讲讲目前大数据在各个方面的应用,以及对于以后大数据应用的设想?

A:大数据目前在各方面的应用非常广泛,比如自动翻译、代替记者自动写文章、自动驾驶、精准医疗都牵涉到人工智能,很难预测对于大数据未来的应用。目前对于大数据的展望过于乐观。估计未来会有一段关于大数据的冷淡期,在这段时期把那些扎实的工作显露出来。 

Q:请问老师,如何向不懂统计学的人说明定性研究不是大忽悠?

A:定性研究有个问题,就是难以重复。我想说的是,所有科学研究的方法都是我们想到最好的办法了。若这问题难以量化,就只好做定性研究了。这里面我举一个例子大家可以了解一下。最近有篇论文《大洪水说明夏朝可能是存在的》,目前史学认为夏朝不存在但商朝是存在的,因为有商朝的文物出土。有文物出土才能证明正史上写的是真事,这就是没有办法的办法,若没有更好的办法就只能做定性研究。

Q:老师您好,请问学习统计学专业未来可以从事怎样的工作?

A:前途是非常广泛的。例如美国、加拿大统计学的缺口非常大,未来各种领域对统计学家的需求是越来越大的,所以需要更多人投入这个专业。

Q:您好,张老师。我一直想做数据分析方面的工作,做数据分析需要具备哪些素质?

A:好奇心、有兴趣很重要,有耐心、能吃苦也同样重要。具体的素质包括掌握一门编程语言、有统计学基础、善于自我学习。

Q:有哪些数据可视化的工具?

A: 那就用R吧!当然还有更多专门一点的工具,要看你的具体需求。 

Q:张老师,您好~我在统计学的学习过程中常常会遇到这样的问题:理论应用到实际情况时,实际案例往往很难满足理论所需具备的假设前提,应该如何解决呢?

A:可以使用数据转换来使它满足理论要求的前提假设,若数据没有偏离太多,有时候理论还是可以用的。另外多查查文献,找找已有适合数据的方法,也许只是你没有找到。从我专业的角度来看,这样是提供新的机会,发展新的工具分析数据,是非常好的。

(整理、排版:Sol_阳阳、朱诺、甘蔗)  本文图片由本期沙龙嘉宾提供


科学人线上沙龙由科学人主办,针对时下热点科学话题进行线上讨论。更多线上线下“干货满满”的活动,请持续关注科学人。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多