淹没在文献大海中？让这些智能工具助你一臂之力 |《自然》技术特写

医学abeycd 2021-12-19

展开全文

突出关键论文的搜索引擎帮助科学家了解最新文献资讯。

Eddie Smolyansky一有时间就努力了解自己领域的最新出版物，试图跟上新文献的脚步。但到了2016年，这位以色列特拉维夫的机器视觉研究者每天会收到数以百计的自动文献推荐。“某些时候厕所闲暇已经不够了。”他说，推荐阅读“实在太多，根本跟不上。”

许多学者都熟悉Smolyansky经历的这种“信息流疲劳”。学术提醒工具原本是为了帮人集中关注相关论文，而现在它却成了障碍本身，塞满了全世界科学家的收件箱。

“最近我甚至没有读过自动更新的PubMed搜索结果，它实在多到无从下手。”匹兹堡大学的生物学家Craig Kaplan说，“我真的跟不上文献进展。”

但一场变革正在进行。2019年， Smolyansky与他人合作创办了Connected Papers，这是新一代可视化文献图谱和推荐工具中的一员。其他还有一些工具承诺缓解信息过载，整合了Twitter feeds、每日新闻和研究。

故事的起源

不同于通过邮箱发送每日新文章列表，Connected Papers使用由用户选择的单篇“源头论文”（origin paper）建立起相关研究的图谱，部分基于重叠的文献引用。Smolyansky说该服务的用户最近已经超过了一百万。

图谱中根据出版日期的不同进行颜色标识，用户还可以在“早先”的开创性论文和后来建立在其基础上的 “衍生”作品间切换。这样做的目的是，科学家能够搜索感兴趣的源头论文，然后在图谱上查看近期有哪些论文在其领域引起轰动，与其他研究关系如何，以及积累了多少引用。

“论文源源不断，你没必要时刻紧盯生怕漏掉哪篇。”Smolyansky说。他补充说，当科学家想要深入某个全新领域时，这一工具也是有用的，它能提供必要文献的概览。

另一个可视化图谱工具是Open Knowledge Maps，其服务由维也纳同名非营利组织提供。它于2015年由奥地利格拉茨科技大学的前学术交流研究员Peter Kraker创立。

Open Knowledge Maps根据关键词而非核心论文来创建图谱，并且依赖文本相似性和元数据来计算论文的关联性。该工具将相似子领域的100篇论文以气泡形式排列，其相对位置显示出相似性；搜索有关“气候变化”的文章，可能会产生一个关于 “风险认知”的相关气泡。

生成这些气泡图谱只需20秒左右，用户还可以对其进行调整，以覆盖最多100篇近期发表的相关论文或其他资源。Open Knowledge Maps不仅包括期刊论文，还涵盖诸如数据集和研究软件一类的内容。其用户到现在已经创造了超过40万篇图谱，Kraker说。

法国艾克斯－马赛大学的语言研究者Amie Fairs自诩为Open Knowledge Maps的狂热爱好者。“这个工具最值得称道的就是，你可以搜索极为广泛的主题，像是'语言生成’，然后它会把论文按主题汇集，有些可能你从没想到过。”Fairs 说。例如，当她搜索“语音脑区”（大脑中处理声音和意义的区域）时，Open Knowledge Maps提出了一个关于处理过程中年龄相关差异的研究子领域。“我从未考虑在老龄化文献中寻找这方面的信息，但现在我会的。”她说。

不过，尽管对这项服务充满热情，Fairs仍然倾向于通过谷歌学术（Google Scholar）的推送寻找新的论文，这是该领域的主流工具；她解释说，这更容易 “发现新世界”，顺着引文链找下去。

点击推荐

谷歌学术根据用户撰写了哪些文章和档案中的列表推荐论文。该算法并不公开，但谷歌表示，推荐是基于 “你的文章主题、你发表文章的地方、合作和引用的作者、与你在同一领域工作的作者以及引用图”。用户可以根据关键词搜索或特定作者，手动设置额外的电子邮件提醒。

新加坡管理大学研究学术搜索工具的图书管理员Aaron Tay从推特和谷歌学术中获得文献推荐。他经常发现，这些工具强调的文章与他的人类同事如出一辙，不过要晚几天。他说，谷歌学术的推荐“几乎总能切中要害”。

除了已发表的文章，谷歌学术还可以挑出预印本和“低质量的论文”，Tay说。即使如此，“你仍可能拾得一些沧海遗珠”。(据发言人称，由出版商爱思唯尔维护的Scopus竞争性文献数据库今年早些时候开始纳入预印本，但并没有对论文进行索引。“会有一些不符合Scopus标准的文章，但谷歌学术是收录的，”他说。)

谷歌学术并未披露其数据库的规模，但人们普遍认为它是现存最大的文章库，据估计有近4亿篇文章（M. Gusenbauer Scientometrics 118, 177-214; 2019）。而Open Knowledge Maps基于开源的比菲尔德学术搜索引擎（Bielefeld Academic Search Engine）构建，该搜索引擎拥有超过2.7亿篇文献（包括预印本），并经过整理以去除垃圾信息。

Connected Papers使用由Semantic Scholar（华盛顿州西雅图的艾伦人工智能研究所于2015年建立的工具）编制的公开文章库，其数量约为2亿篇，包括预印本。Smolyansky承认，这种规模上的差异，意味着“极少情况下”谷歌学术会找到Semantic Scholar所没有的 “一些小众的1970年代的论文”。

Semantic Scholar的提醒系统被称为自适应研究源（adaptive research feed），它建立了一个推荐论文列表，用户能通过喜欢或不喜欢他们看到的文章来进行训练。为了找到与之相似的论文，它采用了一种机器学习模型——该模型是根据相互引用情况以及Semantic Scholar用户连续浏览过的文章进行训练的，一共统计了大约800万月度用户。

再无“错失恐惧症”

2008年推出的Feedly也利用点赞和否决来了解哪些新兴的学术研究与用户最相关，并得益于可针对特定关键词或主题进行训练的人工智能助手。但Feedly并非专门面向研究人员，它的目标是成为全方位管理仪表盘，用于管理新闻、RSS源（一种提醒用户注意网站上新内容的方式）、在线论坛Reddit、推特和播客。Feedly有一个免费版本，但额外的功能（例如关注超过100个来源、隐藏广告）需每月花费6美元及以上（与本文提到的大多数其他完全免费的工具有所不同；另一个付费选项是ResearchGate +Plus，它可以提高用户的知名度并提供高级别的统计数据）。

ResearchRabbit于2021年8月完全上线，描述自己是“论文界的Spotify（译注：一家在线流媒体音乐服务平台）”。用户可以将相关的论文保存到一个集合中，然后开始使用。每增加一篇论文，ResearchRabbit就会更新其推荐文章列表，就像音乐流平台根据用户添加在播放列表中的歌曲进行推荐。这家位于华盛顿州西雅图的公司还未透露它是如何评估相关性的，不过它声称专注于精确推荐，而非大量的提醒。“我们只想向用户发送最相关的论文。”其首席执行官Michael Ma说。

弗吉尼亚联邦大学的特殊教育和残疾政策博士生Amber Brown Ruiz发现，ResearchRabbit的提醒比谷歌学术更个性化：谷歌学术有时会给她提供与自己工作表面上相似的论文，但实际离她的学科很远。

Ruiz也使用Connected Papers来寻找新论文。她发现它的自动化程度不如谷歌学术，后者通过电子邮件发送新的论文，“但你可以手动进去找出哪些文章是最新的。”她说。

所有这些工具的共同点是都使用某种人工智能进行推荐。然而，有些学者喜欢更有人情味的方式，例如他们重视来自同事和推特联系人的推荐。而ResearchGate这个长期平台把自己打造成科学家的社交网络，称它可以集人工智能和人情味之长（ResearchGate与《自然》的出版商施普林格·自然是内容共享的伙伴关系）。

ResearchGate成立于2008年，它既向用户发送电子邮件以推荐论文，也在用户登录后通过滚动的信息流展示论文。(用户还可以浏览其联系人发布的论文动态消息，是按时间顺序排列的。） ResearchGate利用用户的出版物和在平台上浏览的出版物信息来了解他们的兴趣，不过它并未公开算法。然后，它根据共同引用、提取的主题和关键词计算出相关文章。目前，ResearchGate包含约1.49亿个出版物页面，并拥有2000万用户。

“ResearchGate的秘诀是结合了活跃的社交网络和巨大的研究图谱。”ResearchGate产品管理总监Joseph Debruin说。

在感到被新论文海洋淹没的五年后，Smolyansky终于可以摆脱他的科学 “错失恐惧症”了。他说：“你无需再担心错过什么了。”