VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。 VCF文件包括了两部分第一部分是#开头的注释行称为header 包括版本信息,物种,生成这个文件所使用的命令,参考基因组信息等。 第二部分是以TAB分割的列称为records,前7列必须存在,可以用 第1列:CHROM chromosome;染色体名称或contig名称; 第2列:POS position;参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置; 第3列:ID dentifier; 突变的名称,比如dbSNP的名字 第4列:REF reference base(s);参考染色体的碱基 第5列:ALT alternate base(s; 与参考序列比较,发生突变的碱基,可以有多个值,每个值用逗号分隔 第6列:QUAL quality;Phred标准下的质量值,表示该变异位点的可靠性,可以理解为所call出来的变异位点的质量值。Q=-10lgP,Q表示质量值;P表示这个位点发生错误的概率。因此,如果想把错误率从控制在90%以上,P的阈值就是1/10,那lg(1/10)=-1,Q=(-10)*(-1)=10。同理,当Q=20时,错误率就控制在了0.01。 第7列:FILTER filter status;使用其它的方法进行过滤后得到的过滤结果,可以是 PASS 或 FAIL或者空值用 第8列:INFO 用于存储附加信息,例如变异类型、覆盖深度、突变频率等 比如 第9列:FORMAT 表示各个样本的值的名字
第10列以后:样本名 每列是一个样本对应于第9列中的值,用 举个例子CHROM=chr1:一号染色体 POS=13649:13649处 REF=G:参考基因组上13649处的碱基为G ALT=C:所有样本中基因组上13649处可能发生的突变为C,有的样本突变,有的样本没有突变 QUAL=54.75:质量较高,错误率较低、 FILTER=.:没有过滤 INFO=...:GATK得出的一些分数可以用于过滤 对于SRR24302402样本 GT=0/1:基因型为G/C AD=12,4:覆盖到REF的reads数为12,覆盖到ALT的reads数为4 DP=16:覆盖到13649位点的reads数为16=12+4 GQ=64:GT=0/1(即基因型为G/C)时的质量值为64 PL=64,0,281:最有可能的GT是0/1(即基因型为G/C),对应PL值为0,概率为1
Reference
|
|