分享

一次分析数百万篇科学论文的好方法

 2016iamkousyou 2017-07-27

原创编译,转载请注明来源!

每年会产生超过一百万篇新的科学论文,想要一直跟进最新的研究似乎成为了不可能的任务。所以越来越多的科学开始使用计算机对成千上万的论文进行筛选来寻找原始数据和文本。

现在,在最大规模的文本和数据挖掘研究中,科学家们表示,他们已经确定了进行这种搜索的最佳方法,这可以改善从新的药物靶向到未详细研究的基因的追捕。

在文本和数据挖掘领域一直存在争议:是通篇搜索更好,还是通过总结或摘要进行更短更简单的搜索好一些。很明显,通篇搜索可以得到更好的结果,但是研究人员认为这样做的话也会获得很多无用的冗余信息,而摘要则已经包含了所有需要的信息。而且对全文进行搜索也面临着获取和格式化的挑战,所以对摘要进行搜索是可取的。

为了平息这种争议,丹麦技术大学生物信息学家Søren Brunak和同事们对1823年至2016年间出版的超过1500万篇英文科技文章进行了分析。他们分别为这些文章的全文和摘要建立了两个数据库,之后研究人员们对比了对这两个数据进行挖掘的结果。这些论文的全文来自于出版商Elsevier和Springer,以及在线信息库PubMed Central。这些论文的摘要来自MEDLINE(美国医学索引)。MEDLINE与PubMed Central类似,得到美国国立卫生研究院的资助。

研究团队于本月在预印本网站bioRxiv报告称,对全文进行挖掘的结果比对摘要进行挖掘的效果更好。在一次测试中,研究人员们通过全文搜索比通过摘要搜索发现了基因和一些疾病之间存在着更多的相关性,而这对未来的研究目标来说是非常宝贵的。

美国宾夕法尼亚大学的生物数据科学家Daniel Himmelstein说,这项研究非常令人信服地表明,应该利用全文来进行数据挖掘。

研究人员之一,哥本哈根大学的生物信息学家Lars Juhl Jensen说,现在很多研究人员只使用摘要。相比全文来说,这些总结性的内容更容易理解,而且使用的法律限制也更少,也更容易被计算机读取,因为它们的格式更简单。

鉴于这些优势,使用文本挖掘的研究人员们不会很快地从摘要搜索中转变。Himmelstein指出,另一个障碍是出版商对文章的全文设置了很多限制,研究人员无法分享他们所下载的文章数据库,也无法进行文本挖掘,这使其他人很难复现他们的研究。

Brunak承认,与出版商谈判许可权非常具有挑战性,可能会因此花费了同事们数个月的时间。但是他说,最费时间的事情是将出版商提供的PDF全文转换为机器可读的文本格式。

Jensen说:“这也是为什么在过去没有人能够大规模地进行全文挖掘的原因。我们花费在提取PDF文本上的计算资源也许比真正进行文本挖掘的时间还要多。” Jensen警告说,如果研究人员们不熟悉这个步骤,那么在转换文件的时候可能会遇到非常多的令人不快的错误。

Jensen说,一种解决方案是由出版商来确保论文的全文可以被容易地搜索。他非常希望出版商们可以共同制定一种合适的格式,可以被全行业使用,而不是各个期刊只考虑自己使用的格式。Jensen指出,PubMed Central数据库所使用的XML文本格式是一个不错的选择。

们的平台上,发表和介绍国内外原创的科研成果。

注:国内为原创研究成果或评论、综述,国际为在线发表一个月内的最新成果或综述,字数500字以上,并请提供至少一张图片。投稿者,请将文章发送至zhaos@im.ac.cn

本公众号由中国科学院微生物研究所信息中心承办

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多