分享

snpEFF注释vcf

 xiongzhang2017 2018-08-13
  • 摘要:找了突变,获得了snp的vcf文件,肯定想知道这些突变位点到底是出现在哪些基因上以及那些转录本上;如果是出现在外显子上的突变,想了解这些突变会对编码蛋白造成怎么样的影响,这些统统能用annovar解决,选择annovar的Gene-basedannotation即可,可查看之前的笔记Annovar注释vcf-笔记但是如果想获得其他信息或者说更加详细的信息,网上搜了下,发现推荐使用snpEFF来做突变注释,而且软件更新的很勤快~~!因此学习一下,做个笔记软件下载与安装wgeth

  • 找了突变,获得了snp的vcf文件,肯定想知道这些突变位点到底是出现在哪些基因上以及那些转录本上;如果是出现在外显子上的突变,想了解这些突变会对编码蛋白造成怎么样的影响,这些统统能用annovar解决,选择annovar的Gene-based annotation即可,可查看之前的笔记Annovar注释vcf-笔记


    但是如果想获得其他信息或者说更加详细的信息,网上搜了下,发现推荐使用snpEFF来做突变注释,而且软件更新的很勤快~~!因此学习一下,做个笔记


    软件下载与安装
    wget http:///projects/snpeff/files/snpEff_latest_core.zip
    unzip snpEff_latest_core.zip
    下载数据库
    java -jar snpEff.jar databases |grep 'Homo_sapiens' |less -S

    会有下面这些关于人的数据库,可根据自己的基因组版本进行选择,GRCh37.75则表示的是ENSEMBL的参考基因组


    GRCh37.75 Homo_sapiens
    GRCh38.86 Homo_sapiens
    hg19 Homo_sapiens (USCS)
    hg19kg Homo_sapiens (UCSC KnownGenes)
    hg38 Homo_sapiens (USCS)
    hg38kg Homo_sapiens (UCSC KnownGenes)
    testHg19ChrM Homo_sapiens (UCSC)

    然后当然是下载对应数据库,我选择的是GRCh37.75


    java -jar snpEff.jar download GRCh37.75
    注释


    以GATK获得的snp的vcf文件为例,对其进行注释


    java -Xmx4g -jar ~/biosoft/SnpEff/snpEff/snpEff.jar GRCh37.75 KPGP-00001_filtered_pass.snp.vcf >KPGP-00001_filtered_pass.snpEff.vcf


    输出的vcf文件



    从结果文件KPGP-00001_filtered_pass.snpEff.vcf可看出,其还是一个vcf格式的文件,但是在原来的输出文件基础上增加了一个tag: ANN



    因此我可以将这个vcf格式文件稍微处理下,保留原来的vcf文件的前5列,再加上 ANN
    tag形成一个新文件来查看


    perl -alne 'next if $_ =~ /^#/;$F[7] =~ /(ANN=S+)/;print "$F[1]t$F[2]t$F[3]t$F[4]t$F[5]t$1"' KPGP-00001_filtered_pass.snpEff.vcf >snpEff.anntag.vcf

    可以看到如下:


    1 63268 rs75478250 T C ANN=C|non_coding_transcript_exon_variant|MODIFIER|OR4G11P|ENSG00000240361|transcript|ENST00000492842|unprocessed_pseudogene|1/1|n.321T>C||||||


    从上可看出 ANN
    tag将注释信息以”|”分割,每个field有其对应的意义,比如从ANN=开始:




    Allele
    :C表示该突变在参考基因组上的碱基

    Annotation
    :non_coding_transcript_exon_variant表示突变类型?

    Putative_impact
    :MODIFIER表示snpEFF对这个突变的影响的预测,有4个程度(HIGH, MODERATE, LOW, MODIFIER)

    Gene Name
    :OR4G11P表示该突变所在基因的基因名,如果是这个突变位于intergenic,则使用该突变离的最近的一个基因的名称

    Gene ID
    :ENSG00000240361表示gene id,这里是使用ENSEMBL id

    Feature type
    :transcript表示突变所在区域的类型,比如transcript, motif, miRNA等

    Feature ID
    :ENST00000492842表示Feature type对应的id

    Transcript biotype
    :unprocessed_pseudogene表示The bare minimum is at least a description on whether the transcript is {“Coding”, “Noncoding”}. Whenever possible, use ENSEMBL biotypes

    Rank / total
    :1/1表示Exon or Intron rank / total number of exons or introns,前面的1表示这个突变是在第1个exon上(因为annatation已经给出了这个是突变是在exon上),后面的11表示这个突变所在的transcript总共有1个exon(个人理解是这个意思)

    HGVS.c
    :n.321T>C表示Variant using HGVS notation (DNA level)


    后面可能还会有其他注释信息,遇到的话,具体查看官网说明 http://snpeff./SnpEff_manual.html#input




    突变影响的预测,如上所述,snpEff给予每个突变的影响进行了预测


    HIGH:The variant is assumed to have high (disruptive) impact in the protein, probably causing protein truncation, loss of function or triggering nonsense mediated decay


    MODERATE:A non-disruptive variant that might change protein effectiveness


    LOW:Assumed to be mostly harmless or unlikely to change protein behavior


    MODIFIER:Usually non-coding variants or variants affecting non-coding genes, where predictions are difficult or there is no evidence of impact


    所以我们也可以根据这些categorized impact来找more significant variants


    snpEFF官方说明还有列出了每种impact有哪些Effect Classic,以及对应的解释说明




    Summary

    snpEff软件也有丰富的参数选择,比如:



    可以根据自己的需求来个性化建库,
    -t可以使用Mutlithreaded
    SnpSift filter可以过滤掉一些不想显示的突变信息,如:-no-intron :Do not show INTRON changes
    -fi intervals.bed可以选择输入vcf文件的注释intervals位置

    还有其他功能,由于现在只是想看下snpEFF和annovar的区别,所以只是简单的使用下



    主要参考:



    http://snpeff./SnpEff_manual.html


    http://www./1594.html
  • 以上是snpEFF注释vcf-笔记的内容,更多 注释 笔记 snpEFF vcf 的内容,请您使用右上方搜索功能获取相关信息。

      本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
      转藏 分享 献花(0

      0条评论

      发表

      请遵守用户 评论公约

      类似文章 更多