二代测序基础概念(这个是与二代测序相关每个部门都要掌握的) FQ数据格式@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT
NAAGAACACGTTCGGTCACCTCAGCACACTTGTGAATGTCATGGGATCCAT
+
#55???BBBBB?BA@DEEFFCFFHHFFCFFHHHHHHHFAE0ECFFD/AEHH 原始数据过滤数据质量统计概念:Raw Base(bp):原始数据产量,测序序列的个数乘以测序序列的长度,以bp为单位。 Clean Base(bp):过滤之后的有效数据量,过滤后测序序列的个数乘以测序序列的长度,以bp为单位。 Effective Rate(%):过滤后获得clean data 与raw data的比值。 Error Rate(%):碱基错误率。 GC Content(%):碱基G和C的数量总和占总的碱基数量的百分比。 adapter:接头,用于上机测序。建库时引入的接头序列与测序芯片(flow cell)上固定的接头相互识别。 index:测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。 Q20,Q30:Phred 数值大于20、30的碱基占总体碱基的百分比,其中Phred=-10log10(e),e为错误率。 raw data/raw reads:测序下机的原始数据。 clean data/clean reads:对原始数据进行过滤后,剔除了低质量数据的剩余数据。后续分析均基于clean data。
参考基因组的一些概念:比对统计的一些概念:Mapped reads:比对到reference上的reads条数(包括单端比对和双端比对)。 Total reads:有效测序数据的reads总条数。 Mapping rate:比对率,比对到参考基因组上的reads数目除以有效测序数据的reads数目。 Average depth:平均测序深度,比对到参考基因组的碱基总数除以基因组大小。 Coverage at least 1X:参考基因组中至少有1个碱基覆盖的位点占基因组的百分比。 Coverage at least 4X:参考基因组至少有4个碱基覆盖的位点占基因组的百分比。
SNP概念SNP(单核苷酸多态性) 主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,包括单个碱基的转换、颠换等。 主要类型: Exonic:变异位于外显子区域; missense:非同义变异; Stop gain:使基因获得终止密码子的变异; Stop loss:使基因失去终止密码子的变异 synonymous:同义变异。
Intronic:变异位于内含子区域。 Splicing:变异位于剪接位点(内含子中靠近外显子/内含子边界的2bp)。 Downstream:基因下游1 Kb区域。 Upstream/Downstream: 基因上游1 Kb区域,同时也在另一基因的下游1 Kb区域。 Intergenic:变异位于基因间区。 ts:transitions,转换。 tv:transversions,颠换。 ts/tv:转换与颠换的比率。
二代测序原理测序技术发展illumina测序原理高通量测序(High-Throughput Sequencing)又名二代测序|下一代测序(Next Generation Sequencing,NGS),是相对于传统的桑格测序|一代测序(Sanger Sequencing)而言的。相对于Sanger测序而言,二代测序可以提供中等的读长和适中的价格,适合de novo 测序、转录组测序、宏基因组研究等。 Solexa的测序原理是可逆终止化学反应。Solexa是一种基于边合成边测序技术(Sequencing-By-Synthesis,SBS)的新型测序方法。通过利用单分子阵列实现在小型芯片(Flow Cell)上进行桥式PCR反应。由于新的可逆阻断技术可以实现每次只合成一个碱基,并标记荧光基团,再利用相应的激光激发荧光基团,捕获激发光,从而读取碱基信息。 桥氏PCR原理 二代测序建库测序大致流程 DNA片段经末端修复、加ployA尾、加测序接头、纯化、PCR扩增等步骤完成整个文库制备。构建好的文库通过illumina HiSeqTM PE150进行测序。文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/μl,随后使用Agilent 2100对文库的insert size进行检测,insert size符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM),以保证文库质量。
二代测序数据拆分二代测序数据质控二代测序数据比对分析比对分析软件及最重要的软件流程bwa index # 基因组建索引
bwa mem #比对
samtools/gatk sort #排序123123 可选 samtools/gatk rmdup #去重
gatk remap # 重call 比对分析统计结果展示 二代测序变异检测变异检测软件samtools GATK angsd freebase 前两个还是主流软件
变异检测注释软件annvoar(人,动物比较多) snpEff(植物较多使用)
过滤条件结果展示
|