不论是开展基因组相关的科学研究,还是疫情防控中的病原溯源,我们都非常需要获取国际上关于该病原已公开发表的数据,特别是基因组数据~ 可是,现在的公开数据库虽然非常多,但是繁冗复杂,怎么才能更快更准的找到我们需要的数据呢? 今天笔者用几张图,实际演示一下病原微生物基因组的查找和下载流程。 以最著名的NCBI为例~ 关于这个数据库,笔者爱恨交织,之前也写过好几篇文与大家分享过使用经验了。可以说,目前NCBI数据库仍是国际上最主流的基因组公开数据库。我们所需要的绝大多数数据是可以从该数据库中查询到的。 但是!这个NCBI里面的子库太多了。我们从哪儿入手呢? 答案是:Genome库 如下图所示,我们可以在下拉框中选择Genome子库,然后在搜索框中输入我们病原的名字进行搜索,即可有效的缩小查询范围。 我们以Brucella suis(猪种布鲁氏菌)作为示例关键词在Genome子库中进行查询,结果页面如下图所示,该页面显示的是该病原菌的一些基本信息,例如基因组大小啊、taxonomy分类信息啊、基因数量啊等等。 可是,从上面的页面怎么才能知道具体有多少株菌的基因组序列可以下载呢?看上图标注的红框框~里面有数字呢。点击红框中的链接,新出现的页面就包含了该病原目前所有公开的菌株基因组数据~ 找到在哪里了,下一步自然就是下载了。 如果是单个文件下载,直接点击相应链接就可以了。这里不赘述了。 可如果是几十上百株菌呢?一个个点击太浪费时间了 这个时候,我们就需要一些工具来帮忙了 通过从网页获得的表格,我们可以得到所有菌株基因组的地址。然后通过写命令行的方式,批量操作下载 批量操作命令可以使用wget 示例如下~ 当然wget也有它的缺点所在,如果大家感兴趣,也可以尝试下更多升级玩法。 可以去看看笔者之前的几个关于数据下载的帖子 所到底,数据下载考验的我们的耐心和细心。 作为数据分析的第一步,数据下载正如大厦的地基,打夯实了后续才能事半功倍。 让我们一起加油吧~加油 |
|