必看！99％科研人会忽略的测序致命伤

chrismaris 2023-07-27 发布于北京

展开全文

HiSeq X Ten 和 NovaSeq 大大提升了测序通量，但样本标签错配问题着实让人头疼。

FFPE、液态活样本的趋动变异频率实在太低，而建库环节、PCR 环节、测序本身的错误率就和变异频率差不多，如何将它们区分开？

优化的建库方案是解锁各项难题的一把钥匙。解题之前让我们先熟悉一下很多人傻傻分不清，但与上述问题直接相关的两种标签（index）。

不熟悉样本标签、分子标签的伙伴，可以了解下名词解释哦~

▼上下滑动查看 ▼

▶ 样本标签：即 sample index。高通量的测序仪由于每一条 lane 的测序能力都远大于一个样本所需的数据量，为了避免试剂浪费，会将不同样本混合在一起测序。样本标签是不同序列的寡核苷酸片段，通过对样本添加标签就可以区分不同样本，获得测序数据后通过样本标签将分属于不同样本的测序数据归拢到一起。所以样本标签是用于区分不同样品的，是样品的「身份」。

样本标签分为单端标签和双端标签，分别指在样本一端用标签标记，和在样本两端用标签标记。双端标签可以实现更多种的组合，随着测序通量的提高，双端标签被更广泛的使用。

双端标签又分为组合型双端标签（Combinational Dual Index–CDI）和序列特异双端标签（Unique Dual Index–UDI）。CDI 通过对样本两端的标签进行组合来标记样本，例如 i5 有 8 个唯一序列的标签，i7 有 12 个唯一序列的标签，组合起来就有 96 种组合方式，可以标记 96 个样本。而对 UDI 而言，所有的 i5 与 i7 标签都是序列特异的（图 2）。

▶ 分子标签：MBC-Molecular Barcode，有时也称 UID（Unique identifiers），UMI（Unique molecular identifiers）。是对原始样本基因组打断后的每一个片段都加上一段特有的标签序列，用于区分同一样本中成千上万的不同的片段，在后续的数据分析中可以通过这些标签序列来排除由于 DNA 聚合酶扩增以及测序过程中所引入的错误。单端分子标签通常为大约 10 nt 左右的随机序列，双端分子标签通常为两端各 3 个碱基的随机序列。有别于样本标签，分子标签是针对同一个样本中的不同片段加上的标签序列。

分子标签又分为单分子标签和双分子标签，前者只在原始 DNA 片段的一条链上结合一个标签；而后者则是在原始 DNA 片段的正义链和反义链的两端各结合两个序列不同的标签。

什么是样本标签错配，它会对实验结果带来什么影响？

即 index misassignment。样本标签错配最主要的原因是标签跳跃（index hopping），标签跳跃在最新型的测序平台上特别显著，一些样本标签在新型高通量测序仪 Flow Cell 里的某些特殊机制的作用下发生了跳跃，被分配到错误的样本上，导致了样本标签的错配。

图 1. 多样本混合测序与标签跳跃。通过在文库构建过程中对每个 DNA 片段添加该文库的独特序列标签，可以将多个文库混合在一起测序。测序数据根据不同的标签被分配到不同样本。标签跳跃会导致数据分配错误，并可能导致数据拼接错误或下游分析中结论的错误【1】。

▶ 样本标签错配对测序结果的影响可能是致命的

▶ 「标签跳跃」（index hopping）是导致样本标签错配最主要的机制【1】

Illumina 在 2017 年 4 月公布的白布书《Effects of Index Misassignment on Multiplexing and Downstream Analysis》中承认，在采用 Patterned Flow Cell Technology（PFCT）的高通量型号，如 HiSeq 4000，Hiseq X 系列，以及 NovaSeq 上容易出现样本标签错配（index misassignment）问题。

▶ 除了标签跳跃，其它实验过程也会引入标签错配

例如在核酸片段加完接头以后，如果文库纯化不充分，残余的接头与引物会引起文库污染，从而可能导致标签跳跃和错配【1】。所以做好文库的纯化与质控也非常必要。

建库方案的优化首先需要解决标签错配的问题

目前最普遍采用的双样本标签，相当于给样本标记加上双保险。然而组合型的双端标签（Combinational Dual Index–CDI）仍然存在标签共用的问题，以 96 CDI 为例，每一列的 i5 标签都是相同的，每一行的 i7 标签也都是相同的。当标签发生跳跃，形成新 i5 与 i7 组合时，这一组合产生的错误数据将无法被剔除。除此以外，组合型的样本标签需要将不同的 i5 与 i7 标签组合使用，一旦发生标签污染，就会引入假阳性。序列特异双端标签（Unique Dual Index–UDI）不存在标签共用问题，一对样本标签同时两两跳跃到另一段 DNA 片段上的概率几乎为零，因而可以更好的解决标签跳跃问题。

图 2. 左图为组合型样本标签 CDI 示例。不同样本共享 i5 和 i7 标签，通过两两组合成 96 组或 384 组样本标签对。右图为序列特异的双端样本标签 UDI 示例。UDI 的 i5 与 i7 的标签序列均互不相同，样本无需共享标签。96 UDI 就含有 96 对序列完全不同的标签对，384 UDI 就含有 384 对序列完全不同的标签对。

同时还要「解决掉」文库构建与测序环节引入的「错误」

在文库构建的 PCR 环节和上机前文库的扩增环节，DNA 聚合酶和扩增会引入一些原始样本基因组上原本不存在的错误以及扩增的偏好性【3】。而测序环节，以最常见的 illumina 测序仪为例，取决于不同的测序读长、base calling 算法，以及检测的突变类型，测序错误率为 1%~0.05%【4】。这些系统错误的存在，干扰了利用高深度测序检测低频突变，导致难以区分所检测到的变异到底是真实的样本突变还是由于这些系统错误所造成的假阳性。

▶分子标签解决 PCR 扩增与测序过程引入的错误

如图 3 所示，通过分子标签的标记，同一个样本的每一个初始 DNA 片段都结合了一组特异序列的标签，它们会随目标序列一起经过文库构建、PCR 扩增，然后被一同测序。最终测得的序列中，凡带有相同分子标签的序列，就说明它们是从同一条原始的 DNA 片段扩增而来的；而带有不同标签的序列，则说明它们来自不同的原始 DNA 片段分子。由于 PCR 和测序过程中的错误是随机发生的，因此根据这些分子标签，可以在去除冗余的过程中将 PCR 和测序等过程中带来的系统突变剔除掉。

▶ 双分子标签可以校正 PCR 早期引入的假阳性

然而单一分子标签是很难校正 PCR 早期引入的假阳性的，而在双分子标签（Dual MBC）系统下，可以通过比对正义链的序列与反义链的序列来较正那些 PCR 早期发生的突变，有效去除 PCR 早期引入的假阳性【5】，相比单 MBC 在对抗低频变异样本的假阳性上表现更出色。