分享

Nature杂志发话:统计,该这么做!

 微笑如酒 2017-12-09


最近, Nature发文讨论当下热议的话题--低质量的统计和重复性,邀请了六位统计学大牛提出了自己的建议。关于当前统计存在的问题以及如何改善,他们是怎么说的呢?


JEFF LEEK:改变人们的认知

要使用好统计,研究者们必须学习统计学家是如何分析和解读数据的,然后应用这些信息来防止认知错误。


在过去的十几年中,许多领域的数据分析已经从十几个数据集转变为数百万个数据集。针对稀少和难以获取的信息所开发的统计方法,被临时用在如今更大、更多样化和更复杂的数据集上。因此,在现在文献中充斥着过时的统计资料,错误的统计检验和错误的结果也就不足为奇了。用P值来判断结果是否具有显著性,只是诸多缺点中最明显的一个。


但是,我们并不能仅仅将原因怪罪到过量的数据和统计分析培训的缺乏上。拒绝使用P值作为统计指标也是不切实际的。毕竟,有人(例如编辑或基金)需要拍板做决定,有一个明确的标准是十分重要的。


这些问题的根本之处在于,我们对别人如何分析和处理信息过程知之甚少。一个例外是,我们清楚别人是如何分析图表的。实验表明,人们很难在饼图中比较角度,却可以通过柱状图中的相对长度和高度进行比较。因而,有时柱状图比饼图更易于人们理解实验数据。


我们需意识到,数据分析不是纯粹的计算和公式,而是一种人的行为。在这种情况下,依旧培训在数据贫乏时代下开发的统计方法,会使情况便的越来越糟。不过,这种框架也可以使我们发现实际操作中的问题。例如,如何在不丢失数据关键信息的情况下减少分析员需要作出的选择?如何帮助研究者在减少偏倚的情况下探索数据?


第一步要做的就是观察。人们现在在做什么?怎么报告的?我和我的同事们正在做下一步:在我们的在线课程中进行对照试验,看人们是如何解决具体的统计分析挑战的。


我们需要更多的观察性试验和随机对照试验,更多的关于人们如何收集、处理、分析、交流和使用数据的流行病学研究。然后,我们可以利用这些证据对研究人员进行培训和教育。这可能是我们不被廉价、丰富和嘈杂的数据所淹没,并增强信息处理的唯一希望。


BLAKELEY B. MCSHANE & ANDREW GELMAN:放弃统计学意义

在许多领域中,只有当统计具有显著意义时,才会考虑是否发布一个研究发现、进一步探索和制定政策。这个被称为“假设检验”的过程,促使研究者在他们的研究中探索了如此多的路径,以至于不管最终在论文中呈现的是什么,都是不具有代表性的数据。


更糟糕的是,假设检验的过程经常被认为是指任何数据都可以用来决定两种说法。要么是“有效应”的关系(例如治疗和结果之间),要么是“无效应”。事实上,统计并不是“非黑即白”的,这种错误会将“不确定”的 关系洗掉。任何研究,无论试验的设计和执行有多差,都可以得到有统计差异的结果。假设检验本来是为了用来避免使研究人员过度解读数据,现在却造成了相反的结果。


今年,有很多争论关于是否要加强统计意义的门槛来提高科研水平,超过150名研究人员进行了权衡。我们认为,提高P值的门槛并不会改善统计,相反,应该降低。我们的意思并不是完全禁止P值,而是将它与先前的知识结合,与机制的合理性结合,与实验的设计、数据的质量结合,与真实世界的效益结合,成为众多证据之一。


例如,2011年发表于著名心理学杂志上的一项声明认为,对美国国旗的一次曝光将提高共和党的支持率长达8个月的时间。我们认为,这一发现缺乏政治科学理论或民调数据的支持;研究结果让人难以置信;样本量较小,不具有代表性;且这些测量(如投票和政治意识形态)是有干扰的。尽管作者们坚持他们的发现,但我们认为仅看P值提供的信息是很少的。


统计显著性的阈值在有些情况下可能是适用的:1)当效应值较大并且在特定研究条件下变化不大时;2)当变量可以被准确测量时。这其实是当初假设检验和经典统计方法被开发出来的实验的特征。例如,20世纪的20-30年代研究肥料和作物产量的农业实验。到如今,从政策分析到生物医学等方面的实验,效应越来越小,实验取决于的条件苛刻,变量很难被测量。例如,在营养研究中,想要报告饮食选择和健康状况是一个很大的挑战。


开放科学实践,使科学家更难从繁杂的数据中得出过强的结论,这有益于科学。但是,并不能弥补实验本身的不足。真正的进步,需要使研究人员把预测变得更有能力探索理论,并且进行更精确的测量。有时,还需要人与人之间比较。


总之,最关键的步骤是要跳出以P值确定“效果”或“没有效果”的二元评判标准,使研究者接受不确定性和在不同情况下的变化。


图片来源:Nature by David Parkins

DAVID COLQUHOUN:承认假阳性风险的存在

为了将P值降到正确的位置,研究人员需要更好的方法来解释它们。其中重要的一点是,承认那些被标着“具有统计学差异”的结果可能是假阳性(false-positive),假阳性风险往往大于P值。


假阳性的风险取决于实验前假设的合理性--有真实效应的先验概率(the prior probability)。如果先验概率很低,比如10%,那么一个接近0.05的P值可能携带着76%的假阳性风险。如果想要将假阳性风险降低到5%,P值就会变成0.00045。


所以,为什么不报告假阳性风险,而是报告容易被人错误解读的P值呢?这个问题是由于研究人员通常无法知道先验概率。最好的解决办法是,指定为了达到5%的假阳性概率而需要的先验概率,以及P值和置信区间。另一种方法是假设先验概率为0.5,并计算观察到的P值的最小FPR。 (使用在线计算器可以轻松完成计算,参见http://fpr-calc..)


这是一种将熟悉的统计数据与贝叶斯定理相结合的策略,用一个实验的证据来更新先验概率。当然,这些计算的背后有一些假设。并且,没有一个自动的工具可以使研究者不需要精密的思考。


MICHÈLE B. NUIJTEN:分享数据分析计划和结果

比规定如何使分析数据更好的方法是,让研究者为他们的分析负责。一套严格的规则不会改善统计,因为有太多的情况需要解释,即使是一个看似简单的研究问题也会导致大量不同的分析。研究人员应该如何解释诸如性别或年龄这样的变量?哪些极端数据点应该被排除?在何时排除?过多的选择很容易把人带入误区。在大量的路径中,至少会有一条偶然导致“有差异的”发现。研究人员努力挖掘,也许能得到一个符合统计标准的结果,但也会导致假阳性的风险。


规划和开放可以帮助研究人员避免假阳性。一种方法是预先注册分析计划:研究者在看见数据前就把打算如何统计写下来。这避免了将研究者引入寻找“有差异”的路径,然后再解释为什么这样做是合理的。事先写好计划,研究者仍然可以积极采用各种分析方法,并了解结果是否取决于一个特定的变量或一组有限的选择。不过,研究者需要申明这些探索不是事先计划好的。下一步便是分享数据和分析的所有结果,包括算法和代码。这样,人们可以自己判断统计是否正确,找出错误并且发现其他的路径。


STEVEN N. GOODMAN:从内部改变统计学原则

数据统计学并非不堪一击,重要的是如何将其应用到科学研究上,更何况各个领域的应用也是不同的。不幸的是,统计中有些规则很难打破,即使他们导致错误的结论。统计学家,像是美国统计协会,打破传统,温和地警告我们不要滥用P值。但是,他们不能修复其他领域的传统文化。


在训练科学家使用定量方法时,我和其他同事总感到压力,因为我们需要教导同行标准的和期刊期待的方法,而不是告诉他们统计的问题。向年轻的科学家解释,为什么在P=0.1时也可以争取真正的发现或在P=0.01差异并不存在,并不能增强他们的专业视角,并且需要很长的时间。很多研究者只想掌握能使他们允许统计软件的知识就足够了,这可以使他们和领域中的其他人一样,快速发表论文。


规范,部分由方法模仿建立。在一篇上个月发表的预测自杀的文章中,作者们指出他们使用每个小组17个参与者的样本量是因为以前对自闭症患者的研究使用了这些数字。过往发表的研究并不是衡量样本量的真正方法,但是它确实建立了一个模型。正如Berwick在系统变化的报告中说,“文化将每一次都战胜规则、标准和控制策略”。不同的统计学原则决定着哪种结果才足以证明为一个重要发现。生物医学研究中一般使用2-sigma规则(P ≤ 0.05),物理至少需要3-sigma原则(P ≤ 0.003)。在临床研究中,通过一项小型随机试验来确定疗效的想法在几十年前就被放弃了。在心理学上,一个随机试验可以建立一个大胆的理论的观点在五年前还是规范。直到现在,重复一项心理学研究有时也会被视为是对原始研究者的冒犯。


没有一个单独的方法可以解决所有领域的不同问题。这项挑战必须得由投资者、期刊和无数分领域的领导者来承担。一旦开始改变,这个过程变会自我增强。科学家们会跟随模仿他们在发表物上看到的方法,同行评审会要求其他同行对他们的要求。


改革的时机已经成熟,“可重复性危机”已经显示了对正确设计和分析的忽视的代价。许多年轻的研究者正在寻求改变,因此领域中的带头人需要努力使用正确的方法培养下一代,重新培训现在的一代。统计学家也有作用,他们需要从内部改变实践规范。


图片来源:Nature by David Parkins

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多