分享

文章解读 | 基于cfDNA构建甲基化单体型检测并定位肿瘤

 生物_医药_科研 2018-12-15

哺乳动物的相邻CpG位点由于甲基转移酶和去甲基转移酶的持续合成会被共同甲基化,但也会观察到不同的甲基化模式,这些不同往往与随机或不协调的分子进程有关。本研究对人全基因组中显示出高度一致的甲基化区域进行系统化的研究和调查。在分析了61个WGBS数据集,验证了101个RRBS数据集和637个甲基化芯片数据集之后,我们定义了147888个包含紧密耦合的CpG位点的区域(block),称之为甲基化单倍型区域(methylation haplotype blocks, MHB)。研究者使用甲基化单倍型负载(methylation haplotype load, MHL)作为度量单位,在block水平上进行组织特异性的甲基化分析。信息区域的子集进一步用于鉴定异质性样品的去卷积。最后,研究者还使用甲基化单倍型定量评估了肿瘤负载和原发组织定位,样本为来自59例肺癌或结直肠癌病人cfDNA。

文章题目:Identification of methylation haplotype blocks aids in deconvolution of heterogeneous tissue samples and tumor tissue-of-origin mapping from plasma DNA 

研究人员:来自加州大学圣地亚哥分校(UCSD)的研究团队

发表时间:2017. 03

期刊名称:Nature Genetics

影响因子:27.959


研究背景

哺乳动物的CpG甲基化是一种相对稳定的表观遗传学模式,细胞分裂时可以通过一些酶的作用进行遗传。由于这些甲基化相关的酶在局部的活性具有一致性,同一个DNA分子的相邻CpG位点具有相似的甲基化状态。用于模拟人类染色体相邻遗传变异而开发的连锁不平衡理论模型可以用于细胞群CpG共甲基化的分析。运用一些公共数据集,结合本次研究产生的附加WGBS数据,我们通过最大的人类组织类型数据集当中局部结合的CpG甲基化完成全基因组的特征性描述,以确定和注释这些共甲基化的CpG区域,将其作为一个基因组特征的独立的数据集。

DNA甲基化具有细胞类型的特异性,这一模式可以被用于分析不同样本相关的细胞组成,近期的一些成果也是基于个体CpG位点的甲基化水平,它们从根本上受限于技术性噪音和单个CpG甲基化测定的敏感度。

我们通过全基因组完成了组织特异性的MHBs的详尽的研究并提出一个block水平的度量单位,叫作methylated haplotype load(MHL),用于系统性地发现有意义的标志物。通过将我们的分析框架和鉴别的标志物应用于肺癌(LC)或结直肠癌(CRC)病人的临床血浆样本,证明了其拥有更为精确的原发组织的测定能力和对肿瘤的状态的预测能力。


研究方法

样本来源:

肿瘤病人和健康个体的样本来源于相关机构购买的组织样本

公共数据库获取样本数据


研究成果

图1 数据产生和分析的图解

MHBs的识别

    目的:单链DNA分子相邻CpG位点的共甲基化状态

    方法:拓展了连锁不平衡的概念,用r2度量不同DNA分子中结合CpG甲基化的程度

    数据: ILLumina测序单端或双端reads中提取大量CpG位点的甲基化状态构造甲基化单倍型,成对的“连锁不平衡”CpG甲基化r2是通过不同甲基化单倍型域的片段计算的。

    计算过程:

  1.  从61个样品的WGBS数据里识别出共771 million methylation haplotype informative reads,覆盖了常染色体CpGs的58.2%。

  2.  使用r2=0.5作为分界,从人基因组数据中区分出MHBs(图2)。定义了147888个MHBs,平均长度是95bp,最小的block有3个CpGs。我们发现MHBs的片段从干细胞和祖细胞到体细胞再到肿瘤细胞数量是依次减少的。

  3.  肿瘤特异性的MHBs的减少使得肿瘤相关的通路和功能得到拓展。尽管如此,多数肿瘤MHBs仍然包含紧密结合的CpGs(87.8%),让我们得以利用这一模式检测血浆中的肿瘤。我们进一步验证了101个RRBS数据集(ENCODE)和673个HM450K(TCGA)的共甲基化。

图2 一个位于启动子的MHB例子

MHBs和已知调控因子的共甲基化

MHBs是由代表基因特征的一个特定类型的WGBS数据所建立的,和大量已知的基因组的调控因子重合。(图3)41.1%的MHBs在基因间隔区,58.9%的MHBs在转录区。以前对于小鼠和人的研究证明动态的甲基化区域和调控区域是相互关联的。MHBs可能会捕获与转录调控直接或间接结合的局部一致的表观遗传学标签。

图3 已知基因特征区域的MHB的共甲基化状况

使用MHL(methylation haplotype load)进行block水平的分析

为了确保许多样本各自的MHBs的甲基化模式的定量分析,需要建立一个度量单位定义每一个block的大量CpG位点,既能表示一个block中全部CpG位点的平均甲基化水平,还能捕获单链DNA分子上的共甲基化模式。因此定义了MHL作为全部甲基化单倍型和不同长度子链的加权平均数。相比于其它文献中用到的指标(甲基化水平,甲基化熵,epi-polymorphism,单体型的数目),MHL可以区别甲基化平均水平相同但是调节甲基化程度不同的block(图4)。此外,MHL的区间为0~1,可以直接比较很多数据集的不同区间。

图4 五种甲基化单倍型模式

接下来考虑:能否把MHB作为一个独立的基因组特征?基于MHL的定量分析是否较之前的分析方法具有优势?

对65个WGBS的数据集(including four additional CRC and LC WGBS data sets)基于MHL进行分析,使用无监督的聚类方法(15%- most-variable MHBs),结果显示忽略数据来源,同一组织来源的样本聚集在一起。对所有MHBs进行PCA分析产生了相似的模式。为了识别MHBs子集以有效聚集人类体细胞组织,计算每个MHB的TSI(tissue specific index);使用随机森林的方法识别1365个组织特异性的MHBs,准确率达到0.89。

我们使用的成人组织在彼此之间存在着不同程度的相似性,假设这主要是通过他们的发展谱系决定的,相关的MHBs可能揭示与胚层相关的表观遗传学观点。我们在三个胚层的数据集中搜索具有不同MHLs的MHBs。我们推测这些MHBs可能会捕获转录因子(TFs)特异性结合到发育的胚层这一情况。

图5 基于MHL的人组织样本的无监督聚类

基于甲基化单倍型的cfDNA的分析

    背景:为了开发潜在的临床应用,我们接下来关注的是来自健康人群和肿瘤患者的cfDNA的甲基化单倍型分析,有少量的DNA分子是肿瘤细胞分泌的,可能会携带区别于白细胞的表观遗传学的标签区。

    数据:75NCP+29LCP+30CRC;scRRBS方法;每个样本获得13 million paired-end 150-bp reads;平均来看,RRBS数据集覆盖了57.7%的WGBS定义的MHBs

我们查询了血浆样本中肿瘤特异性标签的存在,使用肿瘤组织中鉴定的甲基化单倍型作为参考并且用NCP样本中获得的甲基化单倍型作为阴性对照。在5个LCP和5个CCP样本中,我们获得了匹配的基本的癌症组织并且用肿瘤组织中的100ng的基因组DNA产生了RRBS的数据。我们关注血液中具有低MHL的MHBs,定义了癌症相关的高甲基化单倍型水平。(caHMHs)这种单倍型只存在来自同一患者的肿瘤组织和血浆中,没有在全血或者其他非癌症患者样本中出现。我们发现所有血浆样本的caHMHs都来自于癌症患者。caHMHs和183个基因相关联,其中一些已知在人类肿瘤中出现甲基化异常。

接下来选择另外49例未知癌种的癌症患者血浆样本,使用75个NCP样本作为背景,平均每个血浆样本有60个caHMHs. 明显的是,35%用于匹配肿瘤-血浆对的caHMHs在癌症患者的血浆扩大集中也被检测到了。大部分caHMHs是个体特异性的。

接下来我们打算使用去卷积分析(deconvolution analysis)的方法量化来自于癌症患者血浆样本的肿瘤DNA碎片。我们使用来自原发性癌症和十种健康组织的活体组织检查的参考数据,并估计来自健康个体和癌症患者的血浆中DNA的主要部分由白细胞贡献,这与最近基于shallow WGBS分析的结论是一致的。正常组织释放相对稳定的cfDNA含量,而来自癌症患者的肿瘤细胞DNA分子释放水平比正常组织高。

接下来在RRBS数据集中寻找一个MHBs子集,其在肿瘤患者血浆中的MHL的含量要远高于正常样本中的含量。在CCP和LCP中分别找到了81和94个MHBs,多数都是tumor-plasma对。其中一些区域在LC和CRC中显示出异常甲基化。使用MHBs作为marker具有很高的灵敏性和特异性。

接下来使用健康人组织、原发癌活检和癌细胞系改进ctDNA的探测。选择一个在原发癌样本显示高MHL(>0.5)且在全血样本显示低MHL(<>

基于MHL的分析相比于其它方法具有更优性能。

近来的研究表明隐藏在cfDNA中的表观遗传学信息具有预测原发肿瘤的潜能。一致地,我们发现源于组织的甲基化单倍型是癌症患者血浆中最丰富的部分。为了使用MHBs定量预测肿瘤的原发组织,我们搜集了43个WGBS和RRBS数据(来自癌症发病率高的10个人类组织类型),并且鉴定出2880个组织特异性的MHBs。使用这些MHBs鉴定癌症患者血浆中的原发组织。尽管我们发现许多原发组织特异性的MHBs在健康人血浆中具有较低的MHLs,基于随机森林分析的多类预测有一定的限制。这可能是由于组织分类的分类数比较多(n=10)。我们之后采用了一个改良的方案,通过计算血浆样本中甲基化的组织特异性的MHBs的数目(或者高MHL水平的),并且比较所有组织中的数目推测出可能的发源组织,我们观察到二者之间90%的准确率。之后用这个方法用于血浆数据,所得准确率较高。(图6b为模型建立,图6c为用模型验证过程) 

图6 (b)为模型建立;(c)为用模型验证过程;


讨论

本研究借用了已经建立的人类遗传学连锁不平衡的概念,来分析CpG模式的共甲基化。尽管数学表达式是完全相同的,但是有两个关键的不同之处。首先,传统的连锁不平衡定义在人群中的人类个体,而本研究中则是在异质细胞群体中对个体细胞的二倍体基因组进行分析。第二,人群中的连锁不平衡取决于突变率,减数分裂重组频率,有效人口大小和人口统计学历史。连锁不平衡水平的衰减在千碱基到百万碱基的范围内。与此相反的是,CpG共碱基化取决于DNA碱基转移酶和脱碱基酶,倾向于更低的持续合成能力,就半甲基转移酶而言比DNA聚合酶具有更低的保真度。使用block的概念可以提高DNA甲基化分析的鲁棒性和灵敏性。

尽管本研究论证了MHL在single-CpG甲基化水平和平均甲基化水平的分类中和使用MHBs在deconvolution中的优越性,但是比之前报道过的血细胞类型的deconvolution稍微低一点。一个主要的不同之处是每个参比的组织类型是由大量细胞类型构成的,和其它组织有不同程度的相似性。此外,大多数固体组织会包含许多血管和血细胞。考虑到这些背景信号,我们的精确度是有待进一步改进的。

实际上,每一个病人cfDNA的总量是十分有限的,尤其是在几十微克的范围内。我们每个病人使用1-10ng做scRRBS的实验。考虑实验过程中材料会有所损失,我们每个数据集计算了平均5个基因组的当量。我们的数据集是非常稀少的,尤其是tumor DNA片段含量非常低的时候。因此,在一个特定样本的区域中发现癌症特异性的甲基化单倍型的机会是比较小的。这可能是选择使用随机森林选择 marker sets会限制敏感性和特异性的原因。然而,表观遗传学异常在基因组中是很常见的,并且因此,我们设法将这些区域整合起来通过直接计数informative genomic regions的甲基化单倍型实现精确的预测。血浆中包含来自于正常和癌变的细胞类型的circulating DNA,这些通过甲基化单倍型是可以探测的。这使我们能够检测癌症的存在并发现肿瘤生长的组织或器官。当我们把来自于肿瘤和细胞系的数据集整合到一起作为“泛癌”组织,当作肿瘤起源比对的第11个参考集,检测的敏感性和特异性都会提高,说明整合的数据标签会比关注与一个标签的敏感性高。总的来说,血浆中的甲基化单倍型是一种有希望的策略,用于早期检测肿瘤及其主要生长部位,以及连续监测肿瘤进展和多器官转移。总之,样本数量越大,特异性和敏感性就越高。


参考文献

[1] Shicheng Guo, Dinh Diep, Nongluk Plongthongkum, et, al. Identification of methylation haplotype blocks aids indeconvolution of heterogeneous tissue samples andtumor tissue-of-origin mapping from plasma DNA[J].Nature Genetisc, 2017.

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多