参考annovar官网:http://annovar./en/latest/user-guide/startup/#annotate_variationpl 像人和大小鼠这些比较常见等生物做注释的软件比较多,我选择的是annovar,annovar的下载可能需要fan墙,我的电脑打不开注册链接,找师妹帮我下载的,并且需要机构的邮箱,官方给邮箱发邮件,我们点击链接下载。 human的注释,annovar官网给了非常详细的例子。 因此本文主要是记录小鼠的snp和indel的注释过程。 首先模仿了下载人refgene的例子。 annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/ 因为我是做小鼠的注释,并且我map的参考基因组是mm10,所以我的命令是:
这时我的log文件给了如下提示: NOTICE: the FASTA file for the genome is not available to download but can be generated by the ANNOVAR software. PLEASE RUN THE FOLLOWING TWO COMMANDS CONSECUTIVELY TO GENERATE THE FASTA FILES (you may need to change -seqdir to -seqfile for some genomes): annotate_variation.pl --buildver mm10 --downdb seq mmdb/mm10_seq retrieve_seq_from_fasta.pl mmdb/mm10_refGene.txt -seqdir mmdb/mm10_seq -format refGene -outfile mmdb/mm10_refGeneMrna.fa 于是我就按着提示做了如下操作:
但是log文件中用给了如下信息: NOTICE: Finished downloading annotation files for mm10 build version, with files saved at the 'mm10_seq' directory WARNING: Some files cannot be downloaded, including http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/mm10.fa.gz, http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.zip, http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/mm10.chromFa.tar.gz 部分文件没有下载完全,我就又分别单独下载到这个文件夹。接着把提取refgenemrna的脚本又重新run了一下,命令和上面一样。
很快就得到了 mm10_refGeneMrna.fa文件。 接着下载: perl annotate_variation.pl -buildver mm10 -downdb cytoBand mmdb/ 下载完全后开始分析,但在分析之前,需要check下载的log文件,因为有时候网络不好可能会下载失败,如果下载失败,可以尝试重新下载。 具体分析过程如下:
至此,snp和indel对应的基因等信息已经被注释出来,接下来可以做我们感兴趣的其他分析了。 |
|