研究亮点 使用10X 建库方法和作者开发的SV分析方法,相比短序列测序能有效检测基因组中复杂的结构变异,对癌症中染色体结构变异难以检测的问题提供了解决方案。 研究背景 SV包括DNA的缺失、重复、倒位和易位。由于每种SV都会影响大范围的基因组区域,代表了不同个体和癌症基因组中的大部分差异核苷酸,这使得SV在进化和疾病方面重要性不言而喻。然而现有的二代短序列数据只能找到断点距离小于片段大小(通常500bp)的非常有限的SV数目,长距离的SV重建需要能检测到同一单倍体的长序列,三代的单分子测序虽然满足这一要求,但其高错误率、低通量和高成本使其应用受限。 建库时使用微流体技术包裹长基因组片段,将每个液滴中长片段打断的短序列用同一条码(barcode)标记,从而保留长序列信息。这样拥有相同barcode的一组短序列称为“序列云”。利用10X方法建库,得到拥有相同barcode(即来自同一长序列)的短序列云 ,理论上可以被用于识别、组装、和重建大范围复杂SV,且组合二代测序方法较三代经济许多。应用为此开发的新方法GROC-SVs,作者研究了肉瘤细胞系中的染色体碎裂和随后的SV进化过程。发现比起传统二代短序列测序,断点检测的敏感性大有提高。结果还表明染色体的重排发生在拷贝数扩增之前,单核苷酸变异(SNV)和结构变异(SV)并无直接关系。 研究方法 分析步骤 10X Genomic长片段文库构建及Illumina测序---断点检测---断点序列组装---对SV进行单倍体定相---复杂事件的全基因组重建---后处理---与短序列方法的验证和比较---进化分析。 样本来源 从斯坦福组织库取得来自同一肉瘤块的7个不同部位的小块作为7个实验组,标记为0、1、2、3、6、9、10,其对照样本取自同一病人的肾组织。对所有样本进行基于10X和标准短序列方法的测序以进行比较。其中短序列方法建库使用PCR-free方案,可用以精确检测拷贝数变异。在进化分析中,肉瘤的祖先(起源)样本来自其他研究。 GROC-SVs分析原理 简单来说,GROC-SVs分析主要分为两个过程:第一步,将序列云比对回基因组后,对每个位点和其他位点的barcode相似性进行统计学定量,并画出类似图1a最右边的断点图。同一位置由于覆盖barcode相似或相同,会形成图中的对角线(Diagonal)。而两个相差很远的位置断点融合后,由于相同的barcode覆盖,便会形成断点图对角线以外的散点(Translocation),对每个位置遍历这一过程,GROC-SVs就获得了具有关联性的多个断点位置(多个也说明了SV形成的复杂性)。第二步,抓取这些断点位置上的序列,并通过重叠的序列信息得到断点的先后排列顺序,据此将这些序列组装起来。最后根据组装结果重建出复杂SV事件的进化图,如图1b。
图2展示了第一步的实际操作过程,断点处barcode覆盖了chr1、chr2两处位置,在坐标系上会通过画长方形来表示每条barcode的在这两处位置的相似性。比如用红色表示的这条序列,在chr1中片段长,chr2覆盖片段短,那么坐标系中长方形在chr1(x轴)的长度就长,在chr2(y轴)长度就短。将这些断点处序列通过长方形的不同的长宽转换到坐标系后,相比起背景颜色,就会形成一个三角形的高亮区。实际图(图3)也展示在了下方,左为肉瘤样本中的断点,右为同一位置的正常样本。 图2 barcode相似性直方图的说明 图3 肉瘤样本0中的简单断点 研究成果 1.复杂事件重构 图4 a-c显示了复杂事件是如何重建的。图4a展示了6个拥有相似序列云的连续断点,图4b则是这些断点相应的拷贝数图谱,通过方法中对这些断点位置的排列信息而重构复杂事件。不同断点对应的每一行代表一个云,橙色代表成功分配到确定的单倍体上,黑色代表未分配成功。在非染色体碎裂的细胞系(HCC1143)中,共检测到24个断点,重建出11个复杂事件,包括一个非常大的倒置重复(图4 d-f)。这说明序列云在检测复杂结构变异的强大能力。 图4 乳腺癌中的复杂事件重构 2.全基因组的SV发现,比较和验证 肉瘤基因组拥有大量的结构变异,总共检测出503个体细胞断点。从circos图(图5a)上可看出12号染色体变异密度很高,具有174个断点。circos图最外层代表染色体,其中绿线是指着丝粒位置;往内是拷贝数柱状图;最内层是拷贝异常示意,红色代表缺失,蓝色代表扩增。洋红色弧线代表染色体内变异事件,蓝色弧线代表染色体间变异。其中a代表祖先样本中414个复杂事件,而b、c分别代表0、10号样本特有的复杂事件。从图中可以看出不同染色体间有大量的SV事件发生。 10X数据检测的另一个优点在于与标准短序列SV检测方法相比,它的高物理覆盖显著提高信噪比。支持SV的10X片段数量与序列云配对片段数目高度相关,从中位数上说,是短序列方法的3.2倍。对于成功组装的SV断点序列来说,验证成功率高达98.6%。而短序列方法中,验证率只有65.1%。 图5 全基因组SV的发现和进化分析 3.肉瘤中的基因组进化 图5d显示了用高置信的SNV位点重建的样本的进化树。粗斜体表示断点数量,正小字表示每个分支的SNV数量。每个样本按照体细胞等位基因频率细分为亚克隆(长方形中阴影)。所有肉瘤样本中都出现但未在对照组中发现的414个断点与共同祖先a中414个一致。并发现祖先样本重排后拥有高度扩增的典型脂肪肉瘤驱动基因,MDM2。作者确定了几个肉瘤样本中的特有的89个SV突变,发现大部分位于5、7、12号染色体,10号样本中59个、0号样本中11个、3号样本中3个的标记子克隆SV没有在其他样本中发现。 图5e显示了SV和SNV在进化树分支间的数量对比。图中虚线表示祖先分支在恒定速率模型下,SV相对于SNV的积累速率。从图中表明,SV不是按照细胞分裂数量成比例积累的,而是在进化过程中以爆发形式聚集,否则图中的点应排列于虚线附近(SNV与数目与分裂数量成比例)。从样本10的SNV和SV数目可看出,SV数目和SNV数目没有一致性,这表明SV积累是偶然的。从图3a-c可以发现,祖先样本中只有30%的染色体间SV变异集中于5、7号染色体间,而b中0号样本几乎全部富集于5、7号上。这进一步说明SV是爆发于一个足够短的时间,以至于SNV未积累到足够水平来观察到亚克隆。 文章总结 10X Genomics建库方法组合二代测序是一种经济有效的单分子长序列测序方法。本文作者开发了称为GROC-SVs的基因组结构变异分析方法,并将其应用于10X Genomics 和Iluumina二代测序组合产生的肉瘤数据中,取得了良好结果。现在的全基因组复杂SV重建总限制于断点距离无法不长于插入片段大小(500bp),而作者结果显示约40%的断点之间距离大于10kb。这也证明了序列云方法的适用性。从进化分析结果来看,除了祖先样本中的SV外,7个样本大部分的SV都不一样,这说明SV必须发生在肿瘤进化的早期。值得注意的是,10号样本中SNV为0,而SV数目较多说明,SV可能由于基因组不稳定性的爆发。 使用10X 和 GROC-SVs方法预计未来能在结构变异的检测中取得重要进展。相比起二代短序列测序在检测SV的准确性和灵敏度上均有很大提高。从文中的分析可以预见,这种策略对了解肿瘤间结构进化及复杂变异的重建将取得重大进展。虽然二代测序较三代价格上优势明显,但10X建库费用仍不便宜。未来大规模的全基因组SV精确检测依然有赖于建库费用的下降,这一天相信会早日到来。 |
|