数据下载是生物信息开始的第一步,也常常是最难的一步。 正如万丈高楼的地基,需要认真而审慎的对待。 不幸的是,目前国际主流的数据库仍以欧美为主,国内数据库这几年虽奋起直追,但目前仍未达到可替代NCBI、EMBL、GISAID等国际大数据平台的地位。 因此,现阶段我等数据分析人员仍需掌握从这些国际数据库中收集数据的能力。 前期笔者也陆续和大家分享了如何从NCBI下载细菌基因组数据库(《从NCBI下载基因组数据的N种方式比较》),或者如何下载NT/NR数据库(《NCBI NT库本地下载的n种方法》)。 但是,以上分享的方法统统不适合下载原始测序数据,也就是通常所指的fastq测序数据。 此类数据一般存放在NCBI的SRA数据库里,文件大,路径乱,难查难找,一直是数据收集过程中的大难点。 直到笔者找到了Kingfisher这款工具,终于能实现方便省心的原始数据的下载。 网址:https://wwood./kingfisher-download/ 这个软件运行起来非常的简单,一行命令
此处PRJNA177893是示例数据,是我随便找的NCBI上一个土壤16S扩增子测序项目(bioproject),假设我们想从NCBI下载这个样本的原始测序数据,我们直接用该命令运行即可。 既不用加上任何ftp或http网址的前缀,也不用额外的最后做md5验证。kingfisher可以自动的基于我们提供ID号(-p Bioproject号或者-r SRA号)直接从NCBI上搜索到匹配的记录,并从多个下载工具中找出最可行的那种开始下载,而且下载结束后还会自动的进行md5验证,防止下载中断造成的不完整文件的情况。而且由于是命令行,也非常方便我们批量操作呢~ 如果想下载项目的meta信息,也可以的呢,用kingfisher annotate命令即可,其余参数完全一样~ 怎么样?是不是很贴心呢~ 工作中遇到赏心悦目的工具,就让春天看到美丽的花儿一样,真是让人很开心呢~ 与君共赏春光,也共赏美好的工具,让工作和生活都美好起来~ 长按关注 公众号名称:微微悦明 科学的乐趣是获得新知识的喜悦~ 高通量测序、大数据病原微生物检测和监测健康大数据行业资讯记录与分享 |
|