文章题目:Detecting ultralow-frequency mutations by Duplex Sequencing 研究人员:来自华盛顿大学的Scott R Kennedy和Michael W Schmitt等人 发表时间:2014. 10 期刊名称:Nature Protocols 影响因子:10.032研究背景 二代测序技术应用以来,凭借着低成本,高效率等优点,使得临床医学和基础科研领域取得了革命性的变化和进展。但是在产生数以亿计测序数据的同时,也伴随着约1%的错误率存在。这个问题在不同的分析应用中产生的影响迥异,例如在分析肿瘤亚克隆和罕见突变上影响比较明显。 为了克服二代测序错误率偏高的局限性,来自华盛顿大学的Scott R Kennedy和Michael W Schmitt等人开发出Duplex Sequencing的测序分析方法。Duplex Sequencing基于二代测序技术原理,通过独立的添加标签到reads两端,使得互补的两条单链通过PCR扩增形成一个可以通过唯一标签识别的reads家族,再利用单链矫正和双链互相矫正的方法排除错误,减小错误率(见图1)。众所周知,如果两条互补链是完整的,那么真的突变应该在两条链上都有发生,相反如果是PCR或着是测序过程产生的随机错误则只会发生在一条链上。而对于那些只发生在一条链上突变,很可能是DNA双链完整性遭到破坏导致的,后续可用来分析DNA损伤发生的位点情况。 本文主要介绍基于Duplex Sequencing测序的信息分析流程的使用。 图1 Duplex Sequencing 原理示意图 Duplex Sequencing的特性 Duplex Sequencing优势: 1、准确度高(可检测到5 × 10-8 突变频率的突变) 2、消除由于DNA损伤和降解以及PCR和测序过程中引入的错误。 Duplex Sequencing 局限性: 由于Duplex Sequencing是基于DNA两条链的测序方法,相比其他方法需要更多的测序量。 Duplex Sequencing的分析流程 Duplex Sequencing分析整体流程如图2。 图2 Duplex Sequencing分析整体流程图。(蓝色数字是数据处理过程的编号 The latest version of the DS software package can be downloaded from https://github.com/loeblab/Duplex-Sequencing ) 分析流程具体细节说明:
2)SE unpaired DCSs bam 3)PE DCSs bam转出的fq文件 (下面重比对使用的fastq) 注:得到DCSs bam之后,进行QC_stat(算出平均深度,用于后续PostDCSProcessing.sh参数设置) 质控:tag family size的选取及初始PCR所需DNA量的界定: (tag family size:一个标签家族成员的个数,即reads数。) 由于Duplex Sequencing测序最后是基于DCSs序列进行矫正分析的。所以tag family size的大小对分析十分关键。如果tag family size太小,那么构成DCSs很少,有可能检测不到;如果tag family size太大,那么对测序资源造成浪费。 在不同的tag families中,reads的数量不同(见图3)。研究中用tag family size的峰值作为在某一实验测序背景过程下产生的tag family size的参考标准。 在不同的tag family size峰值中,发现峰值为6时,形成DCSs的效率最高(见图4a)。在tag family size达到16时,DCSs的数量达到饱和。 注:分析数据质控,画出图3a,观察tag family size。 结论: 因此,初始PCR的DNA使用量能保证tag family size 峰值在6到12之间即可。 图3 tag family size的分布 图4 最优tag family size峰值 总结 Duplex Sequencing实现性强:Duplex Sequencing可以使用于各种测序平台,含有双链标签序列的接头,可以代替标准的测序接头,而不会明显改变Illumina测序样本制备的正常工作流程。 在某些领域Duplex Sequencing贡献明显,例如寻找罕见突变和肿瘤耐药性突变。 |
|