分享

尚未重复的学术成果不该被接受

 昵称535749 2016-09-10
Ahmed Alkhateeb 发表于  2016-09-08 11:32

日益蔓延的不可重复危机

(本文由Nautilus授权转载,鬼谷藏龙/编译)几年前,我开始注意到科学界的一个严重问题:不可重复危机。在美国一家名叫安进(Amgen)的制药公司里,有一群研究人员试着与原论文作者合作,去重复53项具有里程碑意义的癌症学发现。这些研究成果很多来自声望卓著的研究机构,并且往往发表在高影响力的学术期刊上。然而出乎每个参与者意料的是,他们只能重复出其中六项成果——也就是大约11%。

图片来源:Tony Buser / Flickr

果不其然,这个结果在科研圈内引起了强烈反响。无法独立重复学术成果让学术机构的信誉岌岌可危。

不过作为一个实验生物学家,我最初对此根本不屑一顾。我对自己重申,科学在于自我修正,错误的想法在科学讨论中也有一席之地。毕竟,正是这一特征使科学区别于其它人类活动,并给予其高尚性。

但是事实证明,不可重复本身其实并不是问题——问题在于它的蔓延程度。随着科学成果呈指数增长(PubMed在2015年收录了超过110万篇论文),这一问题的普遍性日渐显露。广泛存在的不可重复问题经常被误以为是某种故意造假。诚然,造假时有发生,诸如“撤稿观察”(Retraction Watch)之类的网站会记录这些现象。但是大部分不能重复的研究是来自一系列统计偏差、技术偏颇和心理偏见彼此纠葛而成的复杂整体,而这种种偏倚在学术研究中无处不在。

科学家对“公众认可”的渴求

二十世纪早期的科学制度化创造了一种科学亚文化,这个圈子有着其独有的奖励机制,行为准则和社会规范。社会中其他成员对这个圈子的认识略有不同,在他们眼中,科学家毫不利己,其所作所为完全是出自好奇心和对知识的渴求。但“不可重复危机”的存在表明,科学家还有别的动机。

这个问题本身就是一整个学术领域的主题。科学社会学的研究者一直认为,“公众认可”是科学家的原动力。当然,也不能否认别的驱动力,比如说解决谜题、构建知识体系还有经济收入等等。但是认可似乎是尤为普遍而基本的驱动力。

在个体层面上,科学家的行为与此观点是一致的。我们痴迷于率先发现新事物,与声名显赫的研究机构联系在一起,在被业界认可的期刊上发表论文,研究成果被大量引用,获奖,成为明星。科学家和其它人群一样,渴望着被同行与榜样所关注和尊敬。可以理解,科学家并不愿意承认这一事实——毕竟,暗示他们有自利的动机,就意味着他们工作的神圣性可能会被削弱。

著名社会学家罗伯特·默顿(Robert Merton)指出,科学家需要被认可,这源于他们需要确认自己所掌握知识是值得知晓的,确认他们有产生原创思想的能力。从这个角度而言,被认可是学术自信的必要条件。

科研动机的本质在科研奖励系统中同样明显。这些奖励通常表现为某种认可的形式,比如说评奖,头衔以及新闻报道,而它们则会给当事人带来职业的晋升或是获取更高声望的机会。我曾就职过的好几个学术中心,都会在晋升指南上列入“超越局部区域的名声”这一条,作为助理教授晋升的两条标准之一。换言之,助理教授要想被提拔为副教授,他们就需要在其领域内变得出名。

现有质量指标的无效性

眼下,在优质期刊上发表论文和得到广泛引用,就代表了科学界的高度认可。这两项指标往往意味着工作质量,但长久以来的事实证明这并不成立。举例来说,高影响因子期刊上的论文有着和低影响因子期刊上几乎一样的不可重复率。而一些知名度很高的论文纵然被撤稿,依旧在其撤稿前后都拥有大量引用。

人们不愿直视却又难以忽视的真相是,就算不优先追求研究的质量,科学家依然可以获得名声,并让自己的职业生涯更上一层楼。如果学界认可不是建立在研究质量之上,那么科学家就不会专门为了寻求高质量而改变自己的行为。在现代科研氛围下,科学家宁愿犯错也不肯落于人后。

这并不是说研究质量被彻底忽视了。科学家梦寐以求的最高级别认可——诺贝尔奖——就关乎最高水平的科学发现。不过对于成千上万还在为日益缩水的科研经费而挣扎的科学家来说,赢得没那么高端的奖赏就成为了一种执念,毕竟这事关他们的晋升和经费。

如今,现代科学对工作质量的评估指标主要基于引用量,比如影响因子或是h指数等。从概念上说,引用量是工作质量的一个很好的近似。然而,这很容易被科研圈的社会动力学所影响,因而也可能从中做手脚。比方说,同行评议者会要求作者引用他们自己的论文,暗示如果这样做就能够换取好评;同样的,期刊编辑会鼓励作者引用自己期刊以往的相关论文来提高期刊的影响因子。有趣的是,上道的研究者经常自觉地提前引用好潜在同行评议者和期刊编辑期望的论文。

转向“独立验证”为指标的结构改革

指标上的手脚不应该被看做是“发表模式有漏洞而已”,它还反映了学术从事者的动机。所以引进新的发表平台,或者改革同行评议过程——比如说F1000 或PLOS ONE*所引领的那种创新——尽管也很重要也很及时,但恐怕并不能引领更广泛的行为改变,因此也无助于提升可重复性。若想改变这种现状,唯有将改革成果更紧密地与最受重视的奖励——认可——相结合。

注:F1000是一个旨在为科研人员和医生提供快速发表渠道的综合服务体系,提供包括先发表再评议等新型发表渠道;PLOS ONE是一份综合类学术期刊,以快速发表和开放阅读为特色,该期刊更为注重学术研究过程是否合理而不注重研究成果是否重要或热门。此类创新在学术界褒贬不一,支持者认为其打破了经典期刊的垄断,为底层研究人员提供了便利等。而反对者则认为这些系统存在被垃圾论文所充塞等问题。

要想让被认可的渴望与创造高质量科学成果这两个目标和谐共处,我们需要一些独立于社会规范的质量指标。最重要的一点,就是客观标准应基于“独立重复”的概念:一项成果在被独立验证之前不可作为真实结果被接受。

把已经重复和尚未重复的研究区别对待,这将会改变科学的发布与讨论方式,让人对好论文与坏论文都一目了然,激励科学家只发表他们有信心的成果,阻止“为发表而发表”的行为。学术机构将会雇佣具有良好记录的团队以获取企业和政府资助人对其的信任;学术资助机构将倾向于把资金提供给那些建立在坚实基础之上、被优质机构和研究人员提交的研究假说;公众将会对尚未被重复的研究产生更多的质疑,从而避免错误的科学理论被普及。

当然,要把现行的科研制度转变成基于可重复性质量评估的体制化过程,这需要结构改革。首先,科学家需要激励来重复他人的研究——这一激励可以是社会认可和职业升迁。其次,科研界应该建立一套重复研究的数据库。第三,应该发展并检验基于可重复性的质量指标的数学衍生参数;最后,这套新的指标要被整合到科学进程中但不能扰乱其运行。

但这些改变都是可行而值得的。作为科学家,我们有责任让科学研究变得更加透明,让人明白科研学术活动如何被激发,如何产生,以及如何被评估。恰如开放科学中心(Center of Open Science)的布莱恩·诺赛克(Brian Nosek)和同事们曾经所说的那样:“开放性之所以必要,不是因为我们(科学家)不可信,而是因为我们也都是人。”

来自作者的补充回答:

图片来源:duncan c / Flickr

上个月在著名论坛《黑客新闻》上出现了一长串对我发表在Nautilus上的文章《尚未重复的学术成果不该被接受》的反馈。让我喜出望外的是,它引发了一场科学家与非科学家共同参与的热烈讨论。这是应该的,因为我认为无法独立重复我们的科研成果将损害整个科学行业的信誉——而每个公民都和科学行业息息相关。

在我回应黑客新闻社区的反驳论点之前,请允许我先快速总结一下我的观点。我认为我们目前所见的不可重复危机需要一种特殊的视角来看待。特别要注意的是,这场危机是科学家为了职业晋升所受的激励与他们因此得来的工作质量之间存在矛盾的意外结果。我所认为的问题根源在于,学术圈的科学家,即使没有任何见不得人的动机,也可以在没有做出最好工作的情况下获得圈子里的名誉和声望。在我的文章里,我提议将对科学家的认可度与某种客观的工作质量衡量手段相关联,比如说这个研究能否被重复。这些措施将会提高学术标准并能够带来更多的怀疑精神和奋斗精神。

这里是一些值得一说的反驳观点以及一些问题,我在这里一并答复之。

问:只看论文的表面结果,不考虑其是否已被重复,这其实只是科学报道和一些(非常)低端的机构或场所才面临的问题吧?

答:科学记者确实一直在过度描写学术成果以吸引普通大众,毕竟大部分科学研究都会提出极为专业细分的论点,一般读者大概不会感兴趣。但是科学家也同样无法免于这一问题。较之低分期刊来说,他们对高分期刊更不容易产生质疑。他们总是假定编辑和同行评议已经充分审查过此论文,已经识破了文中所有实验设计和逻辑上的错误。更危险的是,如果一项新发现支持了某人自己的研究分支,质疑态度往往就会被搁在一边,因为这样他就能在争取经费上获得竞争优势。

问:重复实验只是为了证实率先发现者的成果而已,谁来为此付钱呢?

答:大部分研究都往往会作为科研的一部分而被重复;研究人员会检查他人的工作来促进自己的研究。因此重复实验可能并不需要提高总体的资金耗费。然而,问题在于这些验证工作的结果,不管成功与否,都很少被发表出来。研究者对此不感兴趣,因为这种工作对他们的职业生涯毫无助益;学术期刊同样如此,因为他们无法借此提升自己的阅读量和影响因子。这阻止了研究者们以进行“创新”研究时同等的严格和精确来进行重复研究。

问:有一些“反激励”因素阻止科学家们去复现他人的结果。所有科学家都想知道结果能否被重复,但是没人会真的去做,因为他们可能会因此丧失地位、发表论文的机会以及科研经费等等。要怎么做才能真正吸引科学家去复现他人的成果呢?

答:目前有不少主张提高科研透明度的运动,比如说开放科学中心;或是革新发表和同行评议方式的尝试,比如说F1000。一种特别有趣的途径是让研究“预注册”:这种机制强调实验设计高于结果。在这个模型内,研究在实验开始前就要被先行同行评议。如果一旦被接受,那么无论结果如何,这个研究都会被发表。我最近提议了一种新的发表模式,通过减少一项新研究需要提供的信息量最小值,或许可以增加发表阴性(与预期不符或无效)结果或验证性工作的倾向。然而,要是科研界不接纳这一切,那么所有尝试都将付诸东流。

至于如何让科研文化对验证性研究的接受度更高是个难题,而且我觉得毋庸置疑需要尝试和摸索。不幸的是,学术圈天然就很保守,我们被训练得像导师一样思考问题,而导师则被训练得像他们的导师一样。不仅如此,学术工作高度竞争的本质阻止了科学家去探索怎样才能以最好的方式进行科研。没有哪个刚入行的科学家会把时间浪费在一篇验证性的小论文上,因为大学在寻求招募拥有创新成果的研究团队以期保住未来的经费。换言之,转向可重复性的范式转换就是对整个科研生态圈牵一发而动全身的文化革新。

问:重复验证是件好事,但是首先你得有优秀的科学研究。重复垃圾研究没有任何用处。

答:认为不可重复危机源于糟糕的科学训练,这一观点确实有其道理。拿新进入系统的年轻科学家做个例子,许多大学现在都举办各种工作坊和研讨课来教导他们那些会影响其工作的统计和心理偏差。我也参与过这类课程,它们很有帮助,意识到偏差是消除偏差的第一步。但这种课的教室很少坐满,因为研究生和博士后被认为应该待在实验室里生产数据。如果不可重复的根源在于糟糕的训练,那么这种问题不会如此广泛,应该只存在于特定的一些机构中。可事实并非如此,不可重复是个结构性的问题,也势必需要结构性的解决之道,而不是在个体层面上。

试图提高科学训练,而不正视学术职业和工作质量之间激励因素上的矛盾,只能带来短期而小幅的进步。因此我们在教导年轻科学家意识到他们自己的主观偏见以及如何更好地使用统计学方法的同时,同样重要的是建设一个激励系统,来确保高质量的成果会比那些仅仅是迎合市场的成果能得到更好奖励。如果这个系统不能确保其工作质量,却照样能让他们获得认可,那一切都还只能是老样子。当然这不是说尚未重复的研究应当被处罚或是踢出科研进程,但是除了可重复性,当下并没有其它评估科研成果质量的客观指标。

可重复性作为一项评估科学的基本指标的发展,总体而言将自然产生从概念到实际发表等各种意义上更好的科学。基于工作质量的认可将会激励学术圈行为的积极转变,更加激励一丝不苟,全神贯注和敢于质疑的学术精神。(编辑:Ent)

题图来源:Tony Buser / Flickr

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多