分享

颤抖吧IF,新的评价指标已粗线!

 解螺旋 2020-08-27


作者:解螺旋.麦子

如需转载请注明来源:解螺旋·医生科研助手

导语

IF一直被吐槽,但有毛用?推倒一个旧事物之前没准备好继承者,大家是没有安全感的,所以它的地位仍然无法动摇。不过现在,已经有两个颇具潜力的评价指标在窥伺IF的位置。

Q值的诞生
影响因子IF大家比较熟悉了,是评价一个学术期刊在一段时间内的影响力,通过它过去两年中的文章引用量来计算。有人觉得,这个太菜了,只能代表一家期刊在过去的影响力,但它的未来却无从预测。能不能有一种计算方法,能通过预测一个科学家发的每篇文章的引用命运,进而预测TA个人事业的前途?



波士顿东北大学的统计物理学家Albert- LászlóBarabási领导了一个团队,对1893年至2010年间,来自American Physical Society的杂志和Web of Science的514896篇物理学的学术文献引用规律做了分析,追踪了这些文章成千上万的引用点,想要从中找出一个统计模型,看怎样才能通过这些科学家事业早期的论文发表情况,最好地预测他们未来的事业走向。

但结果却蹦出一个很大的意外:成功都TM是随机的!你原先是不是以为,一个科学家会随着岁月前进,变得越来越成熟,发表越来越好的作品,后期的作品能更多地被引用?可是并没有!这篇文章的一作Roberta Sinatra,布达佩斯中欧大学的统计物理学家说,"刚开始我们就觉得一团乱。"有些文章发出来的第一年被大量引用,但大家的兴趣如昙花一现,有一些则过了四五年才升温,还有一些发表出来还没见光就死了。比如以下两位诺奖得主的事业轨迹:



Frank A. Wilczek(2004年物理学奖)和John B. Fenn(2002年化学奖)。他们最后都获得诺奖,可以认为成果有相近的影响力。但其最有影响力的文章却发表在事业的不同阶段。每根竖线代表一篇文章,高度代表它发表10年内的引用量。Wilczek的第一篇文章最重要,是他的获奖成果,而Fenn的重头戏却在从耶鲁退休后才发表。

这不科学啊!

为了理清这团乱麻,小组建了一个模型。假设每位科学家随机地选择一个潜力为p的课题,并以Qi因子来发展这个课题,则发表的文章影响力为Qip。参数Qi代表科学家i利用现有知识提高(Qi> 1)或减弱(Qi< 1)一个课题的潜力p的能力。所以真正高影响力的文章,要求有高的能力值(Q)和幸运值(p)。他们通过现有的数据计算出,要得到一个科学家的Q因子,至少需要20篇文章和10年的引用量。如此,他们能够对数据库中科学家的第40篇文章的引用量进行预测,准确率达到80%。

他们也在物理学以外的领域进行了测试,包括生物学、化学和社会学等,仍然有效,所以Q值将来可能成为量化学术成就的一个有力工具。

不过缺点也看到了,它的预测力还是需要科研事业进行到一定阶段才能发挥出来,就是说,发不够20篇文章,憋不够10年,你连Q值都没有。所以在可预见的未来,大学应该还不会用Q值来决定是否雇用一个人。

然而,西雅图的艾伦人工智能研究所的计算机科学家Oren Etzioni表示,这对于现有的评估科学家影响力的工具来说,也是锦上添花。他并没有参加这个项目,而是搞出了另一套东西,今年4月的时候,他展示了自己的Semantic Scholar,一个用来分析科研事业人工智能工具。
Semantic Scholar是个什么鬼?
Semantic Scholar(语义学术),www.semanticscholar.org,也是一个学术引擎,它的首次亮相其实是在去年秋天,向谷歌学术、PubMed发出了挑战,旨在运用人工智能(AI)技术从真正意义上理解文献内容——不过程度还很有限。

去年秋天?AlphaGo在围棋界的首次亮相不也是那个时候?然后今年三月大战李世石。而今年四月,艾伦的Semantic Scholar也发起了新一轮进攻:测量一个科学家或机构的影响力。

这个人工智能引擎不仅和AlphaGo的活动时间相似,训练方法也很类似。具体而言,这个数据库里许多文章是PDF格式,我们人类读起来没有什么困难,但对计算机来说,都是一些不知所云的二进制码。要像人类一样阅读,就需要计算机进行学习,从而做出更准确的理解。它不仅要解析一篇文章的各个部分,像introduction,methods,results等等,还要解读一篇文章被引用的语境——作为整篇文章的启示而引用,和作为method部分随意带过一笔的引用,意义能一样吗?

所以艾伦研究所用机器学习(Machine learning)技术来训练一个统计模型,让它检测上述种种特征。让计算机通过与人类专家的解读进行比较,来稳步改进它的模型。这个模型最初是用2百万篇计算机科学领域的文献进行训练的,但今年秋天就要扩大到神经科学,然后一点点向其他领域推进。

Etzioni的小组在Semantic Scholar中建了一个新工具,能建立一张"影响力图(Influence graph)"。



比如一位作者Dan Roth,他的文章总引用量(右边三个数字的最右一个)、引用速率(中间数字,即最近3年内的引用量的平均值)、高影响力引用量(橙色数字)。高影响力的引用量是什么鬼?这就是上面说的,由AI来进行语义识别从而判断的了。(再也不用担心评委不熟悉我的研究领域了!)



在某一篇文章下面,还有两个橙色数字,左边表示高影响力引用量,右边表示引用速率。

《Science》杂志还邀请了怀俄明州立大学的计算机科学家Jeff Clune来对这个引擎进行测试。Clune做的第一件事就是查看自己的"左邻右舍",看看哪个科学家对自己影响最大,自己又影响了哪些人,然后又看了看其他人的情况。多数情况都和他预想的一致——他的导师影响他最大,他又影响了自己的研究生和博士后。不过也有些意外,蹦出了一些不熟的名字,比如那些跟着Clune的文章做些扩展研究的人。

Clune用过之后也觉得,将来就业、晋升等等,可能也会参考这个。如果其他领域也感觉到Semantic Scholar的价值,这个可能性就更大了。
未来评价标准路在何方?
那些传统的评价方法,是把所有的引用都一视同仁。许多研究者都抱怨,这种单纯基于引用量的评价指标,给人一种"不发文会死"的压力,为了提高引用量就要活生生憋出许多文章,不管质量如何,发了再说。

那么这些新的评价指标是否可以替代IF呢?又会在什么时候坐上交椅?还是说,会形成三足鼎立的格局?也许都为时尚早,只是一场风云正在酝酿。

目前,Semantic Scholar仅能测量一级引用文章的"直接影响力",将来的版本才渐渐能测量引用了好几级的文章的间接影响力。而它向神经科学方向发展也正在进行,今年11月12日在圣地亚哥举行的神经科学学会的会议上,将要发布神经科学界学者的影响力排行榜。

至于Q值,Sinatra说,她还没计算自己的Q值呢~"我还没那么老,我只有14篇文章。"不过她发誓,等时机成熟,她依然不会去计算,"我不喜欢以‘数’取人。"


参考文献:
1.Hey scientists, how much of your publication success is due to dumb luck?
2.Researchers use science to predict success
3.Who’s the Michael Jordan of computer science? New tool ranks researchers' influence
4.Quantifying the evolution of individual scientific impact
5.www.semanticscholar.org

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多