ANNOVAR 是一款变异位点注释软件,提供了多方位的注释功能,支持多个物种,是最受欢迎的注释软件之一。 支持的物种包括以下6种:
ANNOVAR 对于学术和非盈利机构而言是免费下载的,只需要注册个账号就可以了。下载之后,解压缩即可。解压缩之后的文件列表如下 ├── annotate_variation.pl
├── coding_change.pl
├── convert2annovar.pl
├── example
├── humandb
├── retrieve_seq_from_fasta.pl
├── table_annovar.pl
└── variants_reduction.pl
安装好之后,第一步就是下载相关的数据库,命令如下
对于指定版本的参考基因组而言,可以通过如下命令查看其所有的数据库
用法和第一个示例相同,只不过数据库的名字指定为 hg19_abraom.txt.gz 20180312 23198051
hg19_abraom.txt.idx.gz 20180312 9837067
hg19_AFR.sites.2012_04.txt.gz 20140106 277370590
hg19_AFR.sites.2012_04.txt.idx.gz 20140106 22362560
hg19_ALL.sites.2010_11.txt.gz 20140106 179456415
hg19_ALL.sites.2010_11.txt.idx.gz 20140106 21944132
hg19_ALL.sites.2011_05.txt.gz 20140106 232127231 每一行代表一个数据库文件。 参考基因组相关数据库准备好之后,就可以进行注释了。 第一步就是准备输入文件,输入文件有两种格式 1. input
1 948921 948921 T C comments: rs15842, a SNP in 5' UTR of ISG15
1 13211293 13211294 TC - comments: rs59770105, a 2-bp deletion
1 11403596 11403596 - AT comments: rs35561142, a 2-bp insertion 2. VCFVCF格式在之前的文章中介绍过了,这里不再赘述。VCF是突变分析的一种标准格式,大多数软件都支持这种格式的输出。
convert2annovar.pl -format pileup variant.pileup -outfile variant.query
convert2annovar.pl -format vcf4 variantfile -outfile variant.avinput
1. gene-based annotation分析变异位点对蛋白质的影响,支持多种基因集,包括RefSeq, UCSC, ENSEMBL, GENCODE 等。 2. region-based annotation分析变异位点是否位于基因组上的特殊区域,比如转录因子结合区域,组蛋白修饰区等。 3. Filter-based annotation分析变异位点是否位于指定的数据库中,比如dbSNP, 1000G,ESP 6500等数据库,计算 4. other functionalities从基因组上根据坐标提取序列等小功能。 在实际分析中,主要使用 |
|