分享

剑桥大学统计学教授教你提高数据素养

 liyu_sun 2020-05-20

如何用统计学分析和理解真实世界的问题?

David Spiegelhalter, 2019. The Art of Statistics: Learning from Data. Penguin.

Lleo, S. (2019). The Art of Statistics:Learning from Data. Quantitative Finance, 19(8), 1267–1268.doi:10.1080/14697688.2019.1626475
 

Sources:https://www./authors/126755/david-spiegelhalter.html

https://onlinelibrary./doi/full/10.1111/test.12206
毫无疑问,读写能力是理解世界的基本技能。剑桥大学统计实验室风险的公共理解教授大卫·斯皮格豪特教授在他的新书《统计的艺术》提倡数据素养(Data literacy)也同样关键。大卫·斯皮格豪特教授曾经担任英国皇家统计协会会长,他可能是英国最知名的统计学家,每当出现任何有关健康风险的极端言论,媒体第一个要找的就是他。《金融时报》把斯皮格豪特教授与瑞典公共卫生教授Hans Rosling相提并论。斯皮格豪特教授善于直指问题核心,使用浅显易懂的语言而不是难懂的统计术语向门外汉解释清楚问题。斯皮格豪特教授对数据素养如是定义:“对真实世界的问题进行统计分析的能力以及对任何基于统计分析所作结论的理解和批判的能力。”
 
统计学是一把双刃剑。它可以在客观的硬事实掩盖之下,通过提供证据论述某种主张、解决某种争议。然而,统计学也可以作为武器,操纵人们的观点。有时即使没有任何不良企图,统计学也可能让人困惑不已。因此,当务之急是提高我们的统计素养。
 
《统计的艺术:从数据中学习》一书适合两类读者,一是统计学的学生,希望阅读非技术性的统计学入门;二是一般读者,希望更了解在工作和日常生活中遇到的统计问题。《统计的艺术:从数据中学习》教你从数据中获取知识的基本原理。与一般充斥着枯燥干巴的数学公式的统计书籍不同,本书通过实际生活中栩栩如生的例子,生动介绍数据分析的关键技巧。《统计的艺术》关注解决问题的统计分析的艺术,而不是有关统计工具的技术讨论。
 
斯皮格豪特教授从真实世界中的问题入手讲解理论问题,向读者展示如何用统计学方法来分析和回答真实世界的问题。自始至终,《统计的艺术》一书强调问题导向、数据驱动的“PPDAC“循环分析思路,即”问题(problem)-计划(plan)-数据(data)-分析(analysis)-结论(conclusion)。斯皮格豪特教授讲述统计学家如何对问题展开调查分析,如何使用不同的统计分析工具。PPDAC始于定义问题,制定测量的计划(确定测量什么、如何测量和最佳的分析方法),然后收集数据,根据计划分析数据,并基于合理分析得出结论。斯皮格豪特教授还特别强调可重复性的重要性。为了鼓励读者实践,本书公布了书中讨论的所有例子的数据和R代码。
 


《统计的艺术》正文由前言和十四章组成,每一章末尾都有关键要点总结,最后一章是简短结论,列出有效统计实践的十个简单原则。书末有术语表、注释、参考文献和每一章的推荐扩展阅读。
 
《统计的艺术》前言部分,斯皮格豪特教授讲述了自己如何利用数据和统计分析帮助法庭确认英国连环杀手哈罗德·希普曼医生究竟杀死了多少人和他杀人的模式。
 
哈罗德·希普曼是英国杀人最多的已被定罪的谋杀犯,尽管他并不符合典型连环杀手的特点。哈罗德·希普曼是一名文质彬彬、在曼彻斯特郊区行医的家庭医生,在1975-1998年期间至少给215名病人(多数为老年人)注射过量吗啡导致他们死亡。之所以败露,是因为希普曼伪造了其中一名受害人的遗嘱,把受害人的遗产改为留给自己,而受害人的女儿是一名律师,她对遗嘱心生疑窦,于是报警立案。希普曼的计算机记录显示他曾经不断往回修改病人病历史,使病情看上去比实际更严重。
 
斯皮格豪特教授是出席法庭公共质询提供证据的几位统计学家之一,经过统计分析,发现希普曼至少杀害了215名病人,另外还有45名病人可能也死于希普曼之手。


图0.1显示受害者的年龄、性别和死亡时间。从图中可以看出,希普曼的受害者多数为女性,并且大多数在70多和80多岁,但是散点图也显示,早期受害者多为老人,后期也有不少年轻的受害者。另外,1992年是一个空挡,没有谋杀发生,原来那时希普曼曾与几位医生联合行医,然后他可能察觉自己受到怀疑,于是离开,独自行医后谋杀又重新开始。


图0.2非常直观地显示,与其他医生的病人死亡时间分布相比,希普曼病人死亡的时间高度集中在下午1点之后,正是他到病人家里家访之时。
 
希普曼的例子生动展示了使用数据更好理解世界、做出更好判断的潜力。这正是统计科学所做的事。

前言希普曼的例子也预示了随后章节的写作方式,如何从真实世界中有趣、实际的问题出发,继而介绍如何用统计方法加以分析和解决。

 
《统计的艺术》提出并分析了大约50个真实世界的问题。有的问题有关重要科学假设,例如玻色粒子是否真的存在,超感官知觉真的存在吗?有的问题关于健康医疗,例如是否繁忙的医院具有更高的生存率,卵巢癌风险筛查是否有益。有的问题只需要估计数量,例如培根三明治的致癌风险多高,英国人一生中平均有多少个性伴侣,每天服用他汀类药物有多少好处。还有的问题,纯粹有趣,例如泰坦尼克号最幸运的幸存者是谁?是否能早点发现希普曼的罪行?莱斯特停车场发现的尸骸究竟是不是理查三世?本书的美妙之处在于斯皮格豪特教授回答和解决这些问题的方式。
 

《统计的艺术》各章分析的问题举例如下:

  • 地球上有多少棵树?

  • 英国布里斯托1984-1995年期间做过心脏手术的儿童后来怎么样了?

  • 培根三明治的致癌风险有多高?

  • 我们可以相信群众的智慧吗?

  • 上大学会增加得脑瘤的风险吗?

  • 越繁忙的医院病人生存率越高吗?
  • 我们如何基于父母的身高去预测成年子女的身高?
  • 英国有多少人失业?
  • 新生儿男孩多过女孩吗?
  • 卵巢癌筛查有什么好处?
 
本书前六章带领读者踏上基础统计分析和建模之旅。其中,第一至第五章介绍数据的性质和类型、描述性统计指标、使用可视化表达数据、因果性和线性回归第六章讨论算法、分析和预测。本章介绍了当前统计问题解决的前沿,并指出纯算法途径的局限。本书后半部分带领读者走向更深更复杂的问题。第七章至第十章分别介绍区间估计、概率论、假设检验,P值和置信区间的使用和误用。第十章结尾讨论过度依赖P值造成的困难,并分析美国统计协会有关P值的六个原则。第十一章介绍贝叶斯方法:贝叶斯原理、似然率、贝叶斯假设检验和大选民调的分层模型。第十二章统计工作的陷阱、有问题的研究实践和完全的欺诈。最后,第十三和第十四章提出改善统计分析和传播分析结果的方法,并给出一个评估统计结论的检验清单。
 
《统计的艺术》引人入胜,读来趣味盎然。斯皮格豪特教授采用简单工具和生动例子解释技术概念。例如,他用扔硬币和预期概率树来介绍概率论,用模拟和相似使读者对于大数定律、中心极限定理和统计推断形成直觉。
 
《统计的艺术》写作语言采用对话风格,同时保持清晰准确。例如,多数统计教材对P值讨论往往谬误丛生,而本书对P值的定义和讨论则是一次特别享受。本书给P值下了一个直接、符合直觉的定义:“P值就是当虚无假设(以及所有其他模型假设)均为真时,获得极端结果的概率”,继而解释使用P值得风险和对P值的误用,并讲述P值与置信区间争议的历史。

《统计的艺术》语言清晰、诚恳,易于理解,可谓是统计传播的最佳范本。斯皮格豪特教授在书里向读者传达一个信息:统计学虽然很难,但统计学也是一门迷人的学科,并且是我们理解周遭世界不可或缺的工具。

来源:本文转载自公众号城读《城读│剑桥大学统计学大卫·斯皮格豪特教授教你如何提高数据素养 》

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多