分享

vcf格式文件处理大全(二)

 生物_医药_科研 2019-08-27

前面介绍过fasq,fastq,bam三种生物数据分析中常用的格式。fasta一般作为比对的参考序列,fastq为测序数据,将fastq比对到fasta则生成bam文件,对bam进行排序建立索引,就可以直接输出为vcf格式,这个系列我们来详细介绍一下vcf格式的操作。

vcf格式文件处理大全(一)

5 查看固定区域  

建立索引之后就可以快速查看固定区域,如果只有一起区域,可以在命令行书写如果一次要看很多区域,则可以输入一个bed文件。

#查看20号染色体1000-20000之间的突变位点
bcftools view A1.bcf.gz 20:1000-20000
bcftools view A1.bcf.gz -R region.bed

注意基因组区域写法:染色体名字:起始位点-终止位点

6 统计

如果想知道文件中包含多少突变的记录,以及每种突变具体的数据,可以使用bcftools的 stats功能进行统计。统计完了可以直接进行绘图。

bcftools stats A1.bcf.gz >view.stats  
plot-vcfstats view.stats -p output  

7 查看固定内容信息

vcf里面包含的信息非常多,比较混乱,如果只想从中筛选出需要的内容,例如只需要Genotype信息,可以使用bcftools的query功能实现。

bcftools query -f '%CHROM\t%POS\t%REF\t%ALT[\t%SAMPLE=%GT]\n'  A1.bcf.gz  

注意格式的熟悉,每个关键字前面使用%,“\t”或者“\n”代表制表符与换行符。

8 合并多个结果

vcf中不仅可以包含单个样品,也可以同时包含多个样品的信息,只需要将多个样品的vcf合并即可。注意合并之前需要对每个样品创建索引。

bcftools merge A1.vcf.gz B1.vcf.gz -O b -o merge.bcf.gz 


---------- END ----------

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多