【原】NGS数据分析实践：00. 变异识别的基本流程

hucy_Bioinfo 2021-09-19

展开全文

变异识别过程可以分成3大块：1. 原始数据质控；2. 数据预处理；3. 变异识别。大致可以细分为6个部分：(1) 原始测序数据的质控；(2) read比对，排序和标记PCR重复序列；(3) Indel区域局部重比对；(4) 碱基质量值重校正（Base Quality Score Recalibration，BQSR）；(5) 变异检测；(6) 变异结果质控和过滤。

详细的变异识别流程可以参考下图：

Altmann A, Weber P, Bader D, Preuss M, Binder EB, Müller-Myhsok B. A beginners guide to SNP calling from high-throughput DNA-sequencing data. Hum Genet. 2012 Oct;131(10):1541-54. doi: 10.1007/s00439-012-1213-z.

此次实践操作的数据，采用多重PCR靶向扩增子测序技术，在Illunima Hiseq X Ten测序平台上进行双末端（paired-end，PE）测序。两端的读长read1和read2各测150bp（PE150），DNA插入片段（即被测序的DNA片段）的长度约为220bp，因此会出现reads测通（overlap）的现象。测通可以将插入片段的信息，完整还原为单条tags，以正确统计信息（表达量、拷贝数）的生物学意义。

整个实践预计包括以下部分：
1. 分析环境的配置—— conda。
2. 数据的准备——原始测序数据 + 参考基因组数据 + 注释数据库。
3. 数据质量的评估——fastqc + multiqc。
4. 序列比对、排序、标记PCR重复——bwa + samtools + picard。
5. Indel 区域局部重比对 —— gatk。
6. 碱基质量值重校正——gatk。
7. 变异识别——bcftools + gatk + freebayes + varscan。
8. 变异过滤——bcftools + gatk + vcftools。
9. 变异注释——annovar。
……

参考阅读：
从零开始完整学习全基因组测序数据分析：第3节数据质控
 从零开始完整学习全基因组测序数据分析：第4节构建WGS主流程
生信菜鸟团 - 外显子组软件 http://www./category/omics/exon
A beginners guide to SNP calling from high-throughput DNA-sequencing data