【原】颤抖吧IF，新的评价指标已粗线！

解螺旋 2020-08-27

展开全文

作者：解螺旋.麦子

如需转载请注明来源：解螺旋·医生科研助手

导语

IF一直被吐槽，但有毛用？推倒一个旧事物之前没准备好继承者，大家是没有安全感的，所以它的地位仍然无法动摇。不过现在，已经有两个颇具潜力的评价指标在窥伺IF的位置。

Q值的诞生

影响因子IF大家比较熟悉了，是评价一个学术期刊在一段时间内的影响力，通过它过去两年中的文章引用量来计算。有人觉得，这个太菜了，只能代表一家期刊在过去的影响力，但它的未来却无从预测。能不能有一种计算方法，能通过预测一个科学家发的每篇文章的引用命运，进而预测TA个人事业的前途？

波士顿东北大学的统计物理学家Albert- LászlóBarabási领导了一个团队，对1893年至2010年间，来自American Physical Society的杂志和Web of Science的514896篇物理学的学术文献引用规律做了分析，追踪了这些文章成千上万的引用点，想要从中找出一个统计模型，看怎样才能通过这些科学家事业早期的论文发表情况，最好地预测他们未来的事业走向。

但结果却蹦出一个很大的意外：成功都TM是随机的！你原先是不是以为，一个科学家会随着岁月前进，变得越来越成熟，发表越来越好的作品，后期的作品能更多地被引用？可是并没有！这篇文章的一作Roberta Sinatra，布达佩斯中欧大学的统计物理学家说，"刚开始我们就觉得一团乱。"有些文章发出来的第一年被大量引用，但大家的兴趣如昙花一现，有一些则过了四五年才升温，还有一些发表出来还没见光就死了。比如以下两位诺奖得主的事业轨迹：

Frank A. Wilczek（2004年物理学奖）和John B. Fenn（2002年化学奖）。他们最后都获得诺奖，可以认为成果有相近的影响力。但其最有影响力的文章却发表在事业的不同阶段。每根竖线代表一篇文章，高度代表它发表10年内的引用量。Wilczek的第一篇文章最重要，是他的获奖成果，而Fenn的重头戏却在从耶鲁退休后才发表。

这不科学啊！

为了理清这团乱麻，小组建了一个模型。假设每位科学家随机地选择一个潜力为p的课题，并以Qi因子来发展这个课题，则发表的文章影响力为Qip。参数Qi代表科学家i利用现有知识提高（Qi> 1）或减弱（Qi< 1）一个课题的潜力p的能力。所以真正高影响力的文章，要求有高的能力值（Q）和幸运值（p）。他们通过现有的数据计算出，要得到一个科学家的Q因子，至少需要20篇文章和10年的引用量。如此，他们能够对数据库中科学家的第40篇文章的引用量进行预测，准确率达到80%。

他们也在物理学以外的领域进行了测试，包括生物学、化学和社会学等，仍然有效，所以Q值将来可能成为量化学术成就的一个有力工具。

不过缺点也看到了，它的预测力还是需要科研事业进行到一定阶段才能发挥出来，就是说，发不够20篇文章，憋不够10年，你连Q值都没有。所以在可预见的未来，大学应该还不会用Q值来决定是否雇用一个人。

然而，西雅图的艾伦人工智能研究所的计算机科学家Oren Etzioni表示，这对于现有的评估科学家影响力的工具来说，也是锦上添花。他并没有参加这个项目，而是搞出了另一套东西，今年4月的时候，他展示了自己的Semantic Scholar，一个用来分析科研事业人工智能工具。

Semantic Scholar是个什么鬼？

Semantic Scholar（语义学术），www.semanticscholar.org，也是一个学术引擎，它的首次亮相其实是在去年秋天，向谷歌学术、PubMed发出了挑战，旨在运用人工智能（AI）技术从真正意义上理解文献内容——不过程度还很有限。

去年秋天？AlphaGo在围棋界的首次亮相不也是那个时候？然后今年三月大战李世石。而今年四月，艾伦的Semantic Scholar也发起了新一轮进攻：测量一个科学家或机构的影响力。

这个人工智能引擎不仅和AlphaGo的活动时间相似，训练方法也很类似。具体而言，这个数据库里许多文章是PDF格式，我们人类读起来没有什么困难，但对计算机来说，都是一些不知所云的二进制码。要像人类一样阅读，就需要计算机进行学习，从而做出更准确的理解。它不仅要解析一篇文章的各个部分，像introduction，methods，results等等，还要解读一篇文章被引用的语境——作为整篇文章的启示而引用，和作为method部分随意带过一笔的引用，意义能一样吗？

所以艾伦研究所用机器学习（Machine learning）技术来训练一个统计模型，让它检测上述种种特征。让计算机通过与人类专家的解读进行比较，来稳步改进它的模型。这个模型最初是用2百万篇计算机科学领域的文献进行训练的，但今年秋天就要扩大到神经科学，然后一点点向其他领域推进。

Etzioni的小组在Semantic Scholar中建了一个新工具，能建立一张"影响力图（Influence graph）"。

比如一位作者Dan Roth，他的文章总引用量（右边三个数字的最右一个）、引用速率（中间数字，即最近3年内的引用量的平均值）、高影响力引用量（橙色数字）。高影响力的引用量是什么鬼？这就是上面说的，由AI来进行语义识别从而判断的了。（再也不用担心评委不熟悉我的研究领域了！）

在某一篇文章下面，还有两个橙色数字，左边表示高影响力引用量，右边表示引用速率。

《Science》杂志还邀请了怀俄明州立大学的计算机科学家Jeff Clune来对这个引擎进行测试。Clune做的第一件事就是查看自己的"左邻右舍"，看看哪个科学家对自己影响最大，自己又影响了哪些人，然后又看了看其他人的情况。多数情况都和他预想的一致——他的导师影响他最大，他又影响了自己的研究生和博士后。不过也有些意外，蹦出了一些不熟的名字，比如那些跟着Clune的文章做些扩展研究的人。

Clune用过之后也觉得，将来就业、晋升等等，可能也会参考这个。如果其他领域也感觉到Semantic Scholar的价值，这个可能性就更大了。

未来评价标准路在何方？