搜索

分享

QQ空间 QQ好友新浪微博微信

检测超低频突变的方法：Duplex Sequencing

生物_医药_科研 2018-12-15

展开全文

文章题目：Detecting ultralow-frequency mutations by Duplex Sequencing

研究人员：来自华盛顿大学的Scott R Kennedy和Michael W Schmitt等人

发表时间：2014. 10

期刊名称：Nature Protocols

影响因子：10.032

研究背景

二代测序技术应用以来，凭借着低成本，高效率等优点，使得临床医学和基础科研领域取得了革命性的变化和进展。但是在产生数以亿计测序数据的同时，也伴随着约1%的错误率存在。这个问题在不同的分析应用中产生的影响迥异，例如在分析肿瘤亚克隆和罕见突变上影响比较明显。

为了克服二代测序错误率偏高的局限性，来自华盛顿大学的Scott R Kennedy和Michael W Schmitt等人开发出Duplex Sequencing的测序分析方法。Duplex Sequencing基于二代测序技术原理，通过独立的添加标签到reads两端，使得互补的两条单链通过PCR扩增形成一个可以通过唯一标签识别的reads家族，再利用单链矫正和双链互相矫正的方法排除错误，减小错误率（见图1）。众所周知，如果两条互补链是完整的，那么真的突变应该在两条链上都有发生，相反如果是PCR或着是测序过程产生的随机错误则只会发生在一条链上。而对于那些只发生在一条链上突变，很可能是DNA双链完整性遭到破坏导致的，后续可用来分析DNA损伤发生的位点情况。

本文主要介绍基于Duplex Sequencing测序的信息分析流程的使用。

图1 Duplex Sequencing 原理示意图

Duplex Sequencing的特性

Duplex Sequencing优势：

1、准确度高（可检测到5 × 10-8 突变频率的突变）

2、消除由于DNA损伤和降解以及PCR和测序过程中引入的错误。

Duplex Sequencing 局限性：

由于Duplex Sequencing是基于DNA两条链的测序方法，相比其他方法需要更多的测序量。

Duplex Sequencing的分析流程

Duplex Sequencing分析整体流程如图2。

图2 Duplex Sequencing分析整体流程图。（蓝色数字是数据处理过程的编号

The latest version of the DS software package can be downloaded from https://github.com/loeblab/Duplex-Sequencing ）

分析流程具体细节说明：

Raw data 处理：tag_to_header.py（注意：根据具体的reads序列名称修改，基本格式保持一致即可）

去掉链接标签序列和reads之间的前5bp序列（fixed seq）。
重建reads header，例如：
原reads header：@SRR1613972.3 3 length=101
新reads header：@SRR1613972.3|CGTCTCCGGAGGATGGTAACTTAT/3（中间24bp序列：5’12个随机标签序列(α) + 3’12个随机标签序列（β））
过滤reads：带有模棱两可的标签序列
在24bp标签序列中有>=9bp模棱两可的碱基序列，整条reads过滤掉。

BWA比对，筛选 single strand consensus sequences (SSCSs)：consensus.Maker.py（比对的目的在于，确定同一家族的reads要同时满足两个条件：①相同tag ②比对的位置坐标一致）

同一个tag family家族的reads要>=3个
同一家族reads间逐个位点进行一致性比较，>=70%一致性位点为真。否则用N代替当前位置的碱基信息。

在reads中得到αβ家族SSCS和βα家族SSCS。

DCSs :DuplexMaker.py
N position number >=30% filterd
输出： 1）PE DCSs bam

2）SE unpaired DCSs bam

3）PE DCSs bam转出的fq文件（下面重比对使用的fastq）

注：得到DCSs bam之后，进行QC_stat(算出平均深度，用于后续PostDCSProcessing.sh参数设置)

重比对
过滤掉重比对中unmapped reads。
替换bam文件的ReadGroup信息，得到GATK兼容格式。
得到DCSs bam 文件的基因组坐标区域文件。
局域重比对：将bam在上面的区域范围内进行重校正
得到Clip reads（此处设置参数，需根据实际reads长度进行调整。）的bam。
samtools mpileup 查看位点变异情况，CountMuts.py和mut-position.py突变结果分析统计。

质控：tag family size的选取及初始PCR所需DNA量的界定:

（tag family size：一个标签家族成员的个数，即reads数。）

由于Duplex Sequencing测序最后是基于DCSs序列进行矫正分析的。所以tag family size的大小对分析十分关键。如果tag family size太小，那么构成DCSs很少，有可能检测不到；如果tag family size太大，那么对测序资源造成浪费。

在不同的tag families中，reads的数量不同（见图3）。研究中用tag family size的峰值作为在某一实验测序背景过程下产生的tag family size的参考标准。

在不同的tag family size峰值中，发现峰值为6时，形成DCSs的效率最高（见图4a）。在tag family size达到16时，DCSs的数量达到饱和。

注：分析数据质控，画出图3a，观察tag family size。

结论：

因此，初始PCR的DNA使用量能保证tag family size 峰值在6到12之间即可。

图3 tag family size的分布

图4 最优tag family size峰值

总结

Duplex Sequencing实现性强：Duplex Sequencing可以使用于各种测序平台，含有双链标签序列的接头，可以代替标准的测序接头，而不会明显改变Illumina测序样本制备的正常工作流程。

在某些领域Duplex Sequencing贡献明显，例如寻找罕见突变和肿瘤耐药性突变。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：生物_医药_科研 > 《文献案例》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

生物_医药_科研

关注对话

TA的最新馆藏

国产第2款MET抑制剂获批，盘点30亿级赛道的入局者和新机会
黑色素瘤一线治疗又添新方案！FDA批准首个免疫+双靶向疗法用于BRAFV600突变晚期黑色素瘤
国际视野丨胆道恶性肿瘤的靶点及耐药机制
恒瑞创新药卡瑞利珠单抗联合阿帕替尼非小细胞肺癌研究发表于JTO
17 款四代靶向药，全面攻坚 EGFR 耐药
最全整理汇总：HER2阳性乳腺癌靶向治疗研究进展

喜欢该文的人也喜欢更多

热门阅读换一换