分享

人人都要懂的10个科学事实

 汉高周老师 2014-03-26

近几十年来,关于政治决策与科学更紧密融合的呼吁已经成为老生常谈。然而,无论是从能源到健康,还是从环境到教育,要将科学应用到政策中,仍存在许多严峻的问题。

在此背景下,我们认为当务之急是让政策制定者认识科学那不完美的本质。能够明智地对专家顾问进行问询,能够正确理解证据的质量、局限性和偏差,这些都是政策制定者必需的素质。我们把这些素质称为解读科学的能力(interpretive scientific skills)。这些技能比理解基础科学本身更易掌握,并且可以成为大多数政治人物广泛技能的组成部分。

鉴于此,针对公务员、政治人物、政策顾问、记者以及其他与科学或科学家打交道的非专业人士,我们提出了20个在培养自身科学素养时需要掌握的概念。一个倡导科学的、具有怀疑精神的政治人物,一定会希望用这些重要的知识武装自己。当然,其他人也许会列出略有不同的清单。重点是,我们认为如果社会对这20个概念有了更广泛理解,将标志着社会的一大进步。

Page-1 ↑

条件差异和几率都会引起变化

我们看到的现象通常是许多因素共同影响的结果。

现实世界的变化是不可预测的,而科学想探究是什么造就了这些变化。为什么现在比过去十年更热?为什么某些地区的鸟比其他地方的多?关于这些趋势有很多解释,科学研究的最大挑战是从无数的其他来源的变化中,梳理出我们感兴趣的过程所起到的作用(比如,要研究气候变化对于鸟类数量的影响,就要把“气候变化”这个因素,从农业集约化、入侵物种的传播这类大范围变化,以及偶然的个体出生和死亡这些本地小规模事件中剥离出来)。

Page-2 ↑

没有绝对准确的测量

事实上,所有测量都存在误差。每一次重复试验都可能得到不同的结果。在某些情况下,与实际变化相比,测量误差也许会很大。比如,如果你得知上个月的经济增长了0.13%,那么实际上缩减的可能也是存在的。提出结果时应该给出结果的误差范围,以避免不合理精确度的出现。

Page-3 ↑

偏倚是很普遍的

单盲实验和双盲实验的示意漫画。而在实际情况下,并不是所有研究都能采用理想的双盲实验方法,容易产生偏倚。

实验设计或测量装置可能会对实验结果造成影响,在某一特定的方向上产生非典型结果。比如,同样是想知道投票行为情况,分别进行当街采访、电话采访和网上调查,因为样本的成分不同,就可能会得到不同的结果。而因为那些有“统计上显著”的结果更可能会被报道和出版,只看文献会让人产生错觉——问题的严重性或者解决方案的有效性会被夸大。实验中的偏倚很可能这样产生:实验的参与者知道自己接受的是不同的治疗,所以会尝试表现的不同;调查者们对结果的收集会受“知道谁接受了治疗”的影响。其实理想实验应该是双盲的(Double-Blind),即参与者和收集数据的研究者都不知道哪些参与者接受了什么处理。这在药物试验中是很容易做到的,但是对于社会问题就不可能。科学家们在希望找到数据来补充之前的调查结果,或者想反驳一个观点的时候,比较容易产生确认倾向(confirmation bias)。

Page-4 ↑

样本量通常越大越好

当看到一个吸引眼球的研究结论时,在奔走相告之前,不妨先了解一下这个研究的样本量。

大的样本量得到的平均观测结果往往比小样本量的更有益。换言之,当我们积累证据的时候,我们的理解也在加深。这对那些变量多、容易产生测量误差的复杂体系尤其重要。一种药物的有效性在每个个体间都存在差异,因此为了在药物测试中更可靠、准确的估计药物的平均功效,一个有数以万计的样本的实验要比一个只有数百个样本的实验好得多。

Page-5 ↑

相关关系不代表因果关系

相关不等于因果,而不代表相关就不可能是因果关系。

假定一件事物可以导致另一事物固然是很诱人的。然而,相关关系的得出有时候是出于偶然,又或者某两种看似相关的因素的关系,其实是由复杂的或潜在的第三因素决定的。比如,生态学家曾一度认为有毒的藻类杀死了一条河流入海口处的鱼;但后来发现是因为鱼死了所以藻类繁盛起来。并不是藻类本身导致鱼类死亡。

Page-6 ↑

回归均值效应可能造成误导

在设计科学实验、解读实验结果时,研究者必须考虑统计回归效应(向均数回归效应)带来的影响,以避免推论错误。

单次测量中,至少有一部分极端的数据是由于偶然或误差造成的,进行另一次测量,数据可能就没有那么极端(或显著)了。比如,在经常发生车祸的地方放置一个测速相机,但随后事故率的减小并不能归因于放了测速相机,因为原来的高事故率本身可能是偶然,无论是否放测速相机,事故率都很可能向减少的方向发展。

Page-7 ↑

数据范围之外的推断存在风险

试着体会这个梗:“这个世界上只有两种人,一种人能用不完备的数据进行推论。”

在某一范围得到的模型可能出了这个范围就不适用了。所以,如果现在的气候变化速率比现存物种在进化史中所经历过的任何时期都要快,或是出现一个全新的极端天气系统时,评价生态系统对于气候变化的反馈就十分困难了。

Page-8 ↑

注意基础比率谬误

假设一个机器人能够以99%的正确率区别金币的真假,并且判断出了一堆假币。那么当你从假币堆中拿出其中一枚,这枚硬币的确是假币的几率是多少?如果你直觉地回答“99%”,那么就陷入了基本概率谬误之中。

一个不完美的检验到底有多准?这不但和检验本身好坏有关,还和我们要检测的状态本身发生的概率(基本比率)有关。比如,一个人做了有99%准确度的血液测试来检测一种罕见疾病,结果呈阳性,但其实他健康的可能性比生病的可能性更大。如果10001个人来参加这个测试,其中只有一个人有病,此人的结果几乎肯定呈阳性,但还有100个健康人(1%的人)测试结果也会呈阳性。这种类型的计算在任何筛查工作中——比如机场安检——都相当重要。

Page-9 ↑

对照很重要

“亲爱的,去跟他谈谈吧,他刚刚发现自己是个安慰剂。”当前在新药开发等研究中,安慰剂对照实验发挥着重要作用。

Page-10 ↑

除了待测变量之外,对照组与实验组要保持一样的条件。没有对照组,就很难知道实验处理究竟对结果有没有影响。它可以帮助科学家确保没有额外的因素在干扰结果。有时人们在药物测试中表现出阳性可能是因为环境、提供测试的人甚至只是因为药丸的颜色。在这种情况下,设置对照组(例如安慰剂组)就非常重要。

随机化能够避免偏倚

样品的选择也会影响实验结果,随机取样能帮助研究者避免偏倚的结论。

实验应该尽可能采集随机样本。例如直接比较有参与健康计划的家庭和没有参与健康计划的家庭中孩子的学习成绩,是很容易带上偏倚的(因为受教育程度较高的家庭也许本来就更可能参与健康计划)。因此,好的实验设计应当随机选择一些家长让他们参与健康项目,随机选另一些不让他们参与。

Page-11 ↑

我们并不会天真到相信有了这些提示,政策方针就会自动得到改进。我们十分清楚科学判断本身是有价值负载的,也了解偏差和语境跟数据的采集及阐述方式息息相关。我们提供的只是一些简单的想法,以帮助政策制定者理解科研证据对决策的作用,避免潜在既得利益者造成的不正当影响。然而难点在于,社会公众对不同政策的接受程度,仍取决于政治人物本身和更广泛的政治过程。

从蜜蜂数目减少的问题到核能的利用问题。科学界观点与政府政策不一致的情况屡有发生。要将科学观念贯彻到政策制定中,前路依然崎岖。

为了改善这一现状,我们开始鼓励越来越多的科学家参与政治。尽管此项举措值得赞赏,但期望科学家大举参政并不现实。另一提议是扩大首席科学顾问的作用,增加他们的数量、可用性与在政治过程中的参与度。然而,这两种方法都没有解决核心问题——议会投票者中那些科盲们。

或许我们可以向政治人物们教授科学?这个想法很吸引人,但是哪个政治人物会有如此充足的时间呢?实际上,他们几乎从不阅读科学论文和相关书籍。顾问或外部咨询人会给政治人物们阐述与时下热点相关的研究,例如线粒体置换、牛结核病、核废料处置问题等。然而,很少会有人会为了一个政策问题去精心设计一个有大量样本和明确结论的双盲随机重复对照实验。

以下是20条建议中的后10条:

Page-12 ↑

寻求“重复”而非“伪重复”

重复有利于提高实验结果的可靠程度。但在实验设计时,需要注意避免落入“伪重复”的陷阱。

在大量实验、独立群体中重复出现的数据更有可能是可靠的。基于多个实验的系统回顾或元分析能够提供单一研究无法媲美的信息。简单地在一群人中挑一些个体出来并施加干预,比如在一个班级的孩子中做实验,可能会产生误导——因为这些孩子除了这个干预以外还有许多其他共同特征。如果把在这些孩子中得到的实验结果推广到其他不具有相同特点的群体中,其实就是犯了“伪重复”的错误。伪重复会导致研究者对结果产生没有根据的信心。加拿大纽芬兰大浅滩就是因为“伪重复”实验得出鳕鱼数量丰富的结论,促进了世界最大鳕鱼渔场的倒闭。

Page-13 ↑

科学家也是人

“科学家也是人,他们和其他人群一样存在偏倚。但他们的确也有很大的优势:因为科学是个自我纠正的过程。”——著名生理化学家西里尔·庞南佩鲁马。

科学家也想在促进他们工作的过程中得到某些利益,通常是地位或研究经费,某些时候可能是更直接的经济获益。这种情况可能导致数据的刻意选择与夸大。同行评价不是绝对可靠的;期刊编辑可能更支持积极的、富有新闻价值的结果。多元、独立的数据来源及重复结果才更可信。

Page-14 ↑

显著性很重要

差异显著性指标常用于假设检验。通常情况下,P <0.05时,科学家才可以得出数据间具备显著性差异的结论。

统计显著性表示一个事件出于偶然而发生的几率,用P表示。比如一项实验中实验组与对照组的差异显著性是P=0.01,这表示有百分之一的可能性是:实验处理其实没有效果,是偶然因素导致了实验组和对照组的差异。科学家习惯将P<0.05的情况称为显著。

Page-15 ↑

不显著不代表没效果

差异不显著也并不等于差异不存在。

统计学上不显著(P>0.05)不代表真正的无效,只代表它的影响没有被我们检测到而已。小型研究可能不足以找出真正的差异。比如用基因改造的抗虫棉和抗虫马铃薯做的某一组实验显示,这些作物对诸如传粉者的益虫不存在不利影响,但实际上这些实验的样本量都不够大,如果有影响可能也检测不到。

Page-16 ↑

“效应量”很重要

数据差异是否在统计上显著和数据均数差异的大小是不一样的概念。在差异究竟有多大时,我们需要关注效应量(effect size)。图为不同Cohen d系数所表示的差异情况。

显著性可以衡量差异是“真的”还是“假的”,但如果差异是真的,它有多大?这是所谓的效应量。一项多次重复的实验也许会得到统计上显著、但效应量很小的结果(因此,可能并不重要。)效应量的意义不是一个统计学问题,而是生物、物理或者社会层面的问题。二十世纪九十年代,美国期刊《流行病学》(Epidemiology)的主编要求作者们停止使用统计学显著性,因为他们总会误读这项数据,从而得出不科学和不正确的公共卫生政策。

Page-17 ↑

“关联性”会限制结论的推广

研究对象不同,研究的条件和结果会有所差异。因此不要轻易将某项研究的结论一般化。

科学研究结果能否应用在实际问题上,取决于研究条件和实际情况的相似程度多大。比如从实验室动物实验中得到的结果运用到人类的时候就很有局限性。

Page-18 ↑

感觉会影响风险感知

一些风险认知(横线以上)和实际风险(横线以下)的差异:从左至右依次为高温、恐怖袭击、癌症、坠机、车祸、电磁波。

宽泛地讲,人们通常认为“风险”=“某个时间段内某一事件发生的概率”ד这个事件所引发的结果”。很多因素都会对人类的风险感知造成不同程度的影响,包括事件的罕见性、人们自以为对事件的掌控程度、结果的不利影响、风险是否自发等。比如,美国人就会严重低估在家携带枪支的危险(1%),而严重高估住在核反应堆旁边的危险(1000%)。

Page-19 ↑

相关性会改变风险

风险评估必须考虑所关注的事件之间的相互关联程度。

计算独立事件的结果是有可能的,比如极潮、强降水和关键员工的缺席。但如果这些事件相互关联(比如风暴会导致高水位,而强降水会导致关键员工的缺席),它们共同发生的几率就比预期更大。信用评级机构对一大波次级房贷违约风险的低估就是2008年信贷市场崩溃的一个重要原因。

Page-20 ↑

数据是可以选择性呈现的

“……这是我们保存不显著结果的地方。”——不当的数据选择行为目前仍是切实存在的问题。

有时为了支持自己的观点,实验者会选择对预期结果有利的证据。譬如,一项研究认为怀孕时的酸奶摄入量和后代患哮喘之间显然有相关性,但要解读它,我们首先要知道研究者是本来就打算验证这一假说,还是在一大堆数据中偶然发现这一相关性的。相比之下,希格斯玻色子的某一段搜寻历史则是所谓“旁视效应”的例证:如果你使劲使劲找,总能找出来点儿什么。要学会问这个问题:有啥是他们没告诉我的?

Page-21 ↑

极端测量值可能会引起误导

科学在普及、进步的过程中总会遭遇各种阻力。加深人们对科学的认识,社会最终将因此获益。

由于个体能力差异、取样、偏见、测量误差等因素的影响,所有数据测量的整理结果都具有可变性。例如学校的教学效率就会因为老师的能力、受试学生的代表性、学校所处地域、指标测量方法等因素的影响而呈现差异。但在解释研究结果的时候,除个体差异之外的因素常常会被忽略掉。如果我们讨论的是极值的结果(毕业率翻倍了),比较极值和平均值的幅度(X校的毕业率是全国平均值的三倍),或者是数值的范围(表现最好和最差的学校之间有x倍的差距),这就会带来严重问题。排行榜就是其中的典型,很少有靠谱的结论。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多