响应生信技能树的号召:lncRNA数据分析传送门 , 一起来一个lncRNA数据分析实战,你现在看到的是jimmy的笔记,首发于简书:https://www.jianshu.com/p/498b8ff29e7e step3:找到参考基因组文章里面说的很清楚,物种是 Macaca mulatta ,很容易谷歌搜到它的参考基因组及注释文件 http://asia./Macaca_mulatta/Info/Index 我比较喜欢ensembl数据库。 ensembl数据库下载参考基因组Common name: Rhesus monkey , : Taxonomy ID: 9544 可以看到基因组版本是:Genome assembly: Mmul_8.0.1 (GCA_000772875.3),其它信息如下: 要仔细看这个readme的介绍,了解参考基因组是如何组装起来的,什么是SM,什么是RM,什么是toplevel, 这些细节问题很重要。 mkdir -p ~/data/public/lncRNA/ref cd ~/data/public/lncRNA/ref nohup wget -c ftp://ftp./pub/release-91/fasta/macaca_mulatta/dna//Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa.gz & nohup wget -c ftp://ftp./pub/release-91/fasta/macaca_mulatta//cds/Macaca_mulatta.Mmul_8.0.1.cds.all.fa.gz & nohup wget -c ftp://ftp./pub/release-91/fasta/macaca_mulatta//ncrna/Macaca_mulatta.Mmul_8.0.1.ncrna.fa.gz & nohup wget -c ftp://ftp./pub/release-91/fasta/macaca_mulatta//cdna/Macaca_mulatta.Mmul_8.0.1.cdna.all.fa.gz & nohup wget -c ftp://ftp./pub/release-91/gff3/macaca_mulatta//Macaca_mulatta.Mmul_8.0.1.91.gff3.gz & nohup wget -c ftp://ftp./pub/release-91/gtf/macaca_mulatta//Macaca_mulatta.Mmul_8.0.1.91.gtf.gz &
很明显,这个找参考基因组过程体现了一个人数据分析经验与否,而且很容易移植到其它物种的数据分析项目。需要自行理解及探索的文件如下: ├── [ 20M] Macaca_mulatta.Mmul_8.0.1.91.gff3.gz ├── [ 15M] Macaca_mulatta.Mmul_8.0.1.91.gtf.gz ├── [ 24M] Macaca_mulatta.Mmul_8.0.1.cdna.all.fa.gz ├── [ 15M] Macaca_mulatta.Mmul_8.0.1.cds.all.fa.gz ├── [882M] Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa.gz ├── [3.1G] Macaca_mulatta.Mmul_8.0.1.dna.toplevel.fa ├── [1.3M] Macaca_mulatta.Mmul_8.0.1.ncrna.fa.gz
当然,在中国大陆的朋友,可以喜欢这个链接;https://asia./info/data/ftp/index.html Crab-eating macaque | Macaca fascicularis |
---|
Macaque | Macaca mulatta | Pig-tailed macaque | Macaca nemestrina |
这些小细节一定要看清楚咯,到底是什么猴子! 然后作者还下载了 9325, 20,785, 141,353, and 117,405 lncRNAs specific for macaque, gorilla, human, and mouse, respectively, from the NONCODE database , 这里我就先不讲解,大家可以自行摸索一下NONCODE数据库。 有点诡异的是作者选用了 2007年发表在science杂志的macaque genome,不过不要紧,我们还是选择ensembl数据库的最新版参考基因组及注释文件。 还有更多文章,请移步公众号阅读
|