分享

小鼠和人的snp和indel的注释

 生物_医药_科研 2019-06-26

参考annovar官网:http://annovar./en/latest/user-guide/startup/#annotate_variationpl

像人和大小鼠这些比较常见等生物做注释的软件比较多,我选择的是annovar,annovar的下载可能需要fan墙,我的电脑打不开注册链接,找师妹帮我下载的,并且需要机构的邮箱,官方给邮箱发邮件,我们点击链接下载。

human的注释,annovar官网给了非常详细的例子。

因此本文主要是记录小鼠的snp和indel的注释过程。

首先模仿了下载人refgene的例子。

annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/

因为我是做小鼠的注释,并且我map的参考基因组是mm10,所以我的命令是:

annotate_variation.pl -buildver mm10 -downdb -webfrom annovar refGene mmdb/

这时我的log文件给了如下提示:

NOTICE: the FASTA file for the genome is not available to download but can be generated by the ANNOVAR software.PLEASE RUN THE FOLLOWING TWO COMMANDS CONSECUTIVELY TO GENERATE THE FASTA FILES (you may need to change -seqdir to -seqfile for some genomes): annotate_variation.pl --buildver mm10 --downdb seq mmdb/mm10_seq        retrieve_seq_from_fasta.pl mmdb/mm10_refGene.txt -seqdir mmdb/mm10_seq -format refGene -outfile mmdb/mm10_refGeneMrna.fa

于是我就按着提示做了如下操作:

perl annotate_variation.pl --buildver mm10 --downdb seq mm10_seqperl retrieve_seq_from_fasta.pl mm10_refGene.txt -seqdir mm10_seq -format refGene -outfile mm10_refGeneMrna.fa

但是log文件中用给了如下信息:

NOTICE: Finished downloading annotation files for mm10 build version, with files saved at the 'mm10_seq' directoryWARNINGSome files cannot be downloaded, including http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/mm10.fa.gz, http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.zip, http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/mm10.chromFa.tar.gz

部分文件没有下载完全,我就又分别单独下载到这个文件夹。接着把提取refgenemrna的脚本又重新run了一下,命令和上面一样。

perl retrieve_seq_from_fasta.pl mm10_refGene.txt -seqdir mm10_seq -format refGene -outfile mm10_refGeneMrna.fa

很快就得到了 mm10_refGeneMrna.fa文件。

接着下载:

perl annotate_variation.pl -buildver mm10 -downdb cytoBand mmdb/

下载完全后开始分析,但在分析之前,需要check下载的log文件,因为有时候网络不好可能会下载失败,如果下载失败,可以尝试重新下载。

具体分析过程如下:

perl convert2annovar.pl --format vcf4 ${result}_fil_snp.vcf > ${result}_fil_snp.avinputperl convert2annovar.pl --format vcf4 ${result}_fil_indel.vcf > ${result}_fil_indel.avinputperl table_annovar.pl ${result}_fil_indel.avinput $mmdb -otherinfo --build mm10 -out ${result}_fil_indel.anno -protocol refGene,cytoBand -operation g,r -remove -nastring '.'perl table_annovar.pl ${result}_fil_snp.avinput $mmdb -otherinfo --build mm10 -out ${result}_fil_snp.anno -protocol refGene,cytoBand -operation g,r -remove -nastring '.'

至此,snp和indel对应的基因等信息已经被注释出来,接下来可以做我们感兴趣的其他分析了。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多