分享

文献阅读:摘要再凝练,也不比全文更有价值

 解螺旋 2020-08-27

作者:子非鱼

转载请注明:解螺旋·临床医生科研成长平台


科学论文数目火箭式的上升增长,不断地扩展着知识的海洋。而这每年超过100万论文的发表,也使得与最新文献保持同步成为了一项不可能完成的任务。正因为如此,计算机成为了众多科研者搜索论文及其原始数据的常用工具。

现在研究者们通过有史以来最大规模的论文数据挖掘,确定了进行文献搜索的最佳方式,可帮助改善内容搜索,无论要找的是药物标靶还是基因。

一直以来,在论文数据挖掘过程就存在一个争议:读文献时,摘要与全文究竟孰轻孰重?虽说摘要是整篇文章精华的提炼,但这是否是否意味着读文章时只关注摘要即可,而无需通读全文?那么对全文的关注到底是否值得?

不少研究者表示:诚然,论文全文能为研究者提供更多更详尽的结果。但不可否认的是,全文中大量信息对科研者而言是冗余的,加之文献全文获取有时也挺费劲的,因而阅读文献,知其摘要便已足矣。

对此,论文全文表示不服。为了给这个争议画上一个句号,丹麦技术大学的生物信息学家Søren Brunak及其同事针对从1823年到2016年发表的1500万科研论文创建了两个数据库:全文数据库和摘要数据库,其中文章全文来自于出版商Elsevier和Springer以及PubMed Center的开放获取部分,而摘要则来自于美国国立卫生研究院(National Institutes of Health)提供,而后直接对比了两个数据库的信息挖掘情况。

而结果发现,对论文全文的挖掘结果总是要好于摘要。举个栗子,相比于摘要,研究者们从全文文章中确定了更多基因与各种疾病之间的联系,潜在地为未来的研究目标创造一个宝贵的思想宝库。

宾夕法尼亚大学生物数据科学家Daniel Himmelstein指出,这篇论文“令人信服地展示了,若想获得更多更好的信息挖掘应该仔细阅读全文。”而哥本哈根大学的生物信息学家以及论文合作者Lars Juhl Jensen也指出,现阶段研究者搜索阅读最多还仅仅是文章的摘要而已,而这主要是因为相比于论文全文,摘要通常总是更容易被获得,且对摘要内容的使用存在较少的限制,重要的是,摘要简单的格式更容易被计算机识别。

Himmelstein认为鉴于这些优势,进行论文数据挖掘的研究人员可能不会很快就转变单一阅读论文摘要的习惯。此外,还存在的另一障碍就是出版商对论文全文内容限制,因而,分享下载用于数据挖掘的数据库对研究者而言是不被允许的,这也是为什么一些研究论文很难被其他人复制的原因所在。

Brunak承认,虽然与出版商谈判文章阅读权限的过程是非常困难的且花费他们几个月的时间。但在这项研究中最耗时、最具挑战性的一步,就是将出版商提供的论文全文的普通PDF文件格式转换成机器可读的文本格式。

Jensen说到:“这也是为什么以前没有人进行如此大规模的论文全文挖掘的一个重要原因。”“我们可能在将论文的pdf论文格式的转换上花费了更多的计算资源,甚至远超于对论文的实际挖掘。”Jensen表示,如果研究人员不熟悉这一步骤,他们很可能会对转换文件时产生的错误感到“不愉快”。

Jensen提到,有一个解决方案就是出版商要确保论文能够很容易地进行挖掘。他希望看到出版商共同努力寻找一种可以全面使用的“一致的格式”,而不仅仅是每个杂志都有自己的特有格式。同时他还指出,学术文章数据库PubMed Central共享数据的XML文件格式可能是一个很好的范本。

参考文献:Want to analyze millions of scientific papers all at once? Here’s the best way to do it

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多