分享

检测超低频突变的方法:Duplex Sequencing

 生物_医药_科研 2018-12-15

文章题目:Detecting ultralow-frequency mutations by Duplex Sequencing

研究人员:来自华盛顿大学的Scott R Kennedy和Michael W Schmitt等人

发表时间:2014. 10

期刊名称:Nature Protocols

影响因子:10.032

研究背景

二代测序技术应用以来,凭借着低成本,高效率等优点,使得临床医学和基础科研领域取得了革命性的变化和进展。但是在产生数以亿计测序数据的同时,也伴随着约1%的错误率存在。这个问题在不同的分析应用中产生的影响迥异,例如在分析肿瘤亚克隆和罕见突变上影响比较明显。

为了克服二代测序错误率偏高的局限性,来自华盛顿大学的Scott R Kennedy和Michael W Schmitt等人开发出Duplex Sequencing的测序分析方法。Duplex Sequencing基于二代测序技术原理,通过独立的添加标签到reads两端,使得互补的两条单链通过PCR扩增形成一个可以通过唯一标签识别的reads家族,再利用单链矫正和双链互相矫正的方法排除错误,减小错误率(见图1)。众所周知,如果两条互补链是完整的,那么真的突变应该在两条链上都有发生,相反如果是PCR或着是测序过程产生的随机错误则只会发生在一条链上。而对于那些只发生在一条链上突变,很可能是DNA双链完整性遭到破坏导致的,后续可用来分析DNA损伤发生的位点情况。

本文主要介绍基于Duplex Sequencing测序的信息分析流程的使用。

图1   Duplex Sequencing 原理示意图


Duplex Sequencing的特性

Duplex Sequencing优势:

    1、准确度高(可检测到5 × 10-8 突变频率的突变)

    2、消除由于DNA损伤和降解以及PCR和测序过程中引入的错误。


Duplex Sequencing 局限性:

    由于Duplex Sequencing是基于DNA两条链的测序方法,相比其他方法需要更多的测序量。


Duplex Sequencing的分析流程

Duplex Sequencing分析整体流程如图2。

图2   Duplex Sequencing分析整体流程图。(蓝色数字是数据处理过程的编号

The latest version of the DS software package can be downloaded from https://github.com/loeblab/Duplex-Sequencing


分析流程具体细节说明:

  1. Raw data 处理:tag_to_header.py(注意:根据具体的reads序列名称修改,基本格式保持一致即可)

    1. 去掉链接标签序列和reads之间的前5bp序列(fixed seq)。

    2. 重建reads header,例如:

      原reads header:@SRR1613972.3 3 length=101

      新reads header:@SRR1613972.3|CGTCTCCGGAGGATGGTAACTTAT/3(中间24bp序列:5’12个随机标签序列(α) + 3’12个随机标签序列(β))

    3. 过滤reads:带有模棱两可的标签序列

      在24bp标签序列中有>=9bp模棱两可的碱基序列,整条reads过滤掉。

  2. BWA比对,筛选 single strand consensus sequences (SSCSs):consensus.Maker.py(比对的目的在于,确定同一家族的reads要同时满足两个条件:①相同tag ②比对的位置坐标一致)

    1. 同一个tag family家族的reads要>=3个

    2. 同一家族reads间逐个位点进行一致性比较,>=70%一致性位点为真。否则用N代替当前位置的碱基信息。

  3. 在reads中得到αβ家族SSCS和βα家族SSCS。

    1. DCSs :DuplexMaker.py

    2. N position number >=30% filterd

      输出: 1)PE DCSs bam 

    3.             2)SE unpaired DCSs bam 

                  3)PE DCSs bam转出的fq文件 (下面重比对使用的fastq)

        注:得到DCSs bam之后,进行QC_stat(算出平均深度,用于后续PostDCSProcessing.sh参数设置)

  4. 重比对

  5. 过滤掉重比对中unmapped reads。

  6. 替换bam文件的ReadGroup信息,得到GATK兼容格式。

  7. 得到DCSs bam 文件的基因组坐标区域文件。

  8. 局域重比对:将bam在上面的区域范围内进行重校正

  9. 得到Clip reads(此处设置参数,需根据实际reads长度进行调整。)的bam。

  10. samtools mpileup 查看位点变异情况,CountMuts.py和mut-position.py突变结果分析统计。


质控:tag family size的选取及初始PCR所需DNA量的界定:

(tag family size:一个标签家族成员的个数,即reads数。)

由于Duplex Sequencing测序最后是基于DCSs序列进行矫正分析的。所以tag family size的大小对分析十分关键。如果tag family size太小,那么构成DCSs很少,有可能检测不到;如果tag family size太大,那么对测序资源造成浪费。

在不同的tag families中,reads的数量不同(见图3)。研究中用tag family size的峰值作为在某一实验测序背景过程下产生的tag family size的参考标准。

在不同的tag family size峰值中,发现峰值为6时,形成DCSs的效率最高(见图4a)。在tag family size达到16时,DCSs的数量达到饱和。

注:分析数据质控,画出图3a,观察tag family size。

结论:

因此,初始PCR的DNA使用量能保证tag family size 峰值在6到12之间即可。

图3   tag family size的分布


图4    最优tag family size峰值


总结

Duplex Sequencing实现性强:Duplex Sequencing可以使用于各种测序平台,含有双链标签序列的接头,可以代替标准的测序接头,而不会明显改变Illumina测序样本制备的正常工作流程。

在某些领域Duplex Sequencing贡献明显,例如寻找罕见突变和肿瘤耐药性突变。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多