写在前面课题需要,前述,在TBtools中开放了一个SraExperimentXML2InfoTable的功能。在这个功能的辅助下,我们较快的完成了阶段任务。筛选数据完成了,但是下载数据却出现了问题。
无论如何,下载数据的第一步是需要获取数据所在链接。 优化原有功能对SraExperimentXML2InfoTable工具的输出,增加两列,
如图 总的来说,NCBI FTP link多数时候是可以下载的;而DDBJ存储的数据确实很少,所以link是Potential的,意思就是,数据很可能并不存在。我个人的经验是,NCBI下载不了的时候,从DDBJ的link却常常可以下载。 But,最优秀的终归还是ENA。如前所述,ENA不仅存储了数据的SRA格式的数据,还存储了Fastq格式。在早前NCBI还没发表fasterq-dump时,直接下载fastq.gz文件的整体耗时明显短于下载SRA格式数据之后用fastq-dump转格式。 基于SRRnum获取ENA links信息ENA存储测序数据,并没有绝对的规律,部分数据有专门的目录,部分数据放在不同深度的目录。故,无法通过像NCBI或者DDBJ一样的操作去拼接链接。而只有两个操作:
第一个操作比较重,很多时候也没必要。于是我采用的是第二个操作。花了大半个小时,顺带打了GUI 设置输入文件,图中可见,准备一个txt文本文件,每行一个SRR number,保存并用做输入;设置输出文件是,注意补齐文件名。 为了避免被ENA封杀IP,操作是大概每个SRRnumber信息获取后等待1~3s,所以输入100个SRRnum可能需要花5min才能将信息获取完毕。 信息获取完毕后会有弹窗提示,所以此时最好去玩一局贪吃蛇。 OK,弹窗时,贪吃蛇是没有暂停的(所以一定会Game Over),用Excel打开结果文件 可以看到,左侧即为fastq.gz文件下载链接(推荐用aria2c或者迅雷,IDM下载),右侧为sra格式文件 写在后面Done. 节后开工第一天。 题外课题组每年暑期有内部生信入门培训,主要是对实验室新生开展(以及湿实验为主的成员)培训。一直有收到其他课题组想要了解我们课题组生信数据分析的想法。故,在博导的提议和课题组的讨论后,我们近期计划,在本年度暑期(7~8月份之间)对外增设生信基础培训名额10枚(前面每年只是课题组内培训,而不对外)。具体请见https://mp.weixin.qq.com/s/OtmeTErd9f9rvjJPtBKjMw |
|