分享

海量文献的文本挖掘表明:全文比摘要更具价值

 二少爷收藏馆 2017-07-22


学术界每年可以出产百万级的科研论文,想时刻保持与最新研究同步,几乎是不可能的。这也是为什么越来越多的学者利用计算机工具来搜索论文的原始数据和文本。现在,通过一次最大规模的数据和文本挖掘实践,研究人员已经确定了此类搜索的最佳方法。这可以帮助改善内容搜索,无论要找的是药物标靶还是基因。


一直以来都有这样一个争论:在进行数据挖掘的时候,到底应该着眼于整篇论文,还是只关注研究的总结或摘要,对全文的关注是否值得?虽然完整的论文显然会提供更多的结果,但一些人认为,这其中包含着太多多余的信息,摘要就已经足够了。另外获取完整论文也需要一些额外的工作,所以他们会选择只看摘要。


来自丹麦技术大学的生物信息学者S?ren Brunak和同事对1823年到2016年中出版的超过1500万份学术论文进行了分析。他们创建了两个数据库,一个包含论文全文,一个只包含摘要,以进行挖掘对比。全文内容来自出版商Elsevier和Springer,以及PubMed Central的开放获取内容。而这些文章的摘要则来自美国国立医学图书馆 (MEDLINE)。



研究人员目前已将分析报告上传至预印本网站bioRxiv,他们指出,对研究论文全文进行文本挖掘的结果总是好于对摘要的挖掘。比如在测试中,全文挖掘相比摘要挖掘显示出了大量基因和多种疾病之间的关联,可以说这无形中构建了一个未来研究方向的宝藏。


宾夕法尼亚大学生物信息学者Daniel Himmelstein并未参与此项研究,他表示:这篇论文“令人信服地展示了理想的数据挖掘应该采用全文文本。”


目前,很多学者都只对摘要进行搜索。这种总结性内容通常让人更容易把握全文,使用其内容的限制也更少。对于计算机来说,摘要的简单格式也更为方便。



鉴于这些优点,人们短时间内可能不会改变这总习惯。另外一个障碍在于,出版商一般对于全文内容都有限制。研究人员不允许分享他们下载并用于文本挖掘的论文数据库,这使其他人很难去重复他们的研究。


Brunak表示,和出版商协商这些许可的过程非常不易,这花费了他们几个月的时间。不过,最为耗时也最为艰巨的任务还是将出版商提供的全文PDF文档转换为机器易读的文本格式。



“这也是为什么以前没有人去做这样大规模全文本挖掘的原因之一”,共同作者,哥本哈根大学的Lars Juhl Jensen说,“我们大概把更多的计算资源放在了PDF文档的转换上,甚至超过了实际的文本挖掘工作。”他还表示,如果学者们并不熟悉这一过程,在转换文件的时候可能会冒出很多错误。


一个解决方法就是,出版商能够提供易于进行挖掘的全文文本,这需要学术界都采用一个“通用的格式”,而不是每个期刊都使用自己的特有格式。比如,PubMed Central所采用的XML文件格式就是个很好的范例。



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多