【原】易基因｜ctDNA甲基化测序分析（ctDNA-WGBS）用于癌症检测和分子分型 | 精准医学

深圳易基因科技 2022-09-29 发布于广东

展开全文

大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。

多项研究已证明，循环肿瘤DNA（circulating tumor DNA，ctDNA）是癌症诊断和预后的潜在标志物。2022年08月23日，中国医学科学院北京协和医学院国家肿瘤中心吴志宏/佟仲生/赫捷/孙英丽团队在《Clin Transl Med 》杂志发表了题为“Whole-genome bisulfite sequencing analysis of circulating tumour DNA for the detection and molecular classification of cancer”的研究文章，通过ctDNA全基因组重亚硫酸盐测序（WGBS）以低至1ng的微量input ctDNA 生成无偏倚的全基因组 ctDNA 甲基化图谱，证明了ctDNA-WGBS测序分析用于癌症的检测和分子分型的可行性。

标题：Whole-genome bisulfite sequencing analysis of circulating tumour DNA for the detection and molecular classification of cancer（ctDNA全基因组重亚硫酸盐测序分析用于癌症的检测和分子分型）

发表期刊：Clinical and Translational Medicine

发表日期：2022年08月

影响因子：8.554/1区

方法：ctDNA-WGBS

摘要：

癌细胞特异性变异和循环肿瘤DNA（ctDNA）甲基化是用于非侵入性癌症检测和分子分型的潜在生物标志物。然而由于缺乏癌细胞特异性ctDNA、DNA变异信噪比低、缺乏非位点特异性DNA甲基化检测技术等难点，ctDNA在癌症早期检测和筛查中的应用仍具挑战。

本研究纳入中国两家医院的三组乳腺癌（breast cancer，BC）患者（BC组n=123；健康对照组n=40）。利用ctDNA全基因组重亚硫酸盐测序技术，ctDNA-WGBS具有从200μL血浆中微量ctDNA捕获、微量input（1ng）文库制备、无偏倚的全基因组覆盖和全面计算方法的技术优势。

研究结果发现：在多中心患者队列中，包含15个ctDNA甲基化标志物的诊断特征在早期（曲线下面积AUC=0.967）和晚期（AUC=0.971）BC阶段显示出高准确性。同时研究结果还鉴定出可以在不同的癌症类型（包括肝细胞癌和肺癌）重可以很好区分雌激素受体状态的ctDNA甲基化特征（训练集AUC=0.984，测试集AUC=0.780）。

本研究为后续研究提供了一个工具集，即用微量血浆生成无偏倚的全基因组ctDNA甲基化组，为癌症的早期诊断和分子分型开发高度特异性和敏感性的生物标志物。

图形摘要

引言：

肿瘤细胞向血液中分泌称为ctDNA的单链或双链DNA片段，提供了一种新的诊断工具。ctDNA具有几个明显优势：（1）用于ctDNA分析的血液采集快速简单。（2）ctDNA的半衰期(约2小时）使其能够用于动态和实时监测癌症进展。（3）ctDNA检测减少了与肿瘤内基因异质性相关的偏倚。（4）ctDNA可以在医学影像前几个月检测到复发风险。因此，许多正在进行的研究将ctDNA作为肿瘤早期诊断的非侵入性生物标志物。癌症相关基因的基因突变是潜在候选基因，可以通过既定方法在癌症患者的血浆ctDNA中进行分析，panel测序有了更多突变检测的机会。但这种方法在癌症筛查中存在三个主要挑战：（1）对于早期癌症，可接受的放血量上限和有限的ctDNA脱落可能影响敏感性。（2）白细胞DNA污染和非恶性/癌前过程（如年龄相关的克隆造血）的血浆ctDNA的突变可能影响检测特异性。（3）突变的非组织特异性给癌症病因带来不确定性。因此，迫切需要找到一种新颖实用的方法来克服这些限制。

DNA甲基化变化可能是肿瘤发生和发展的早期事件，使其成为早期癌症诊断的潜在生物标志物。研究表明，与组织中的拷贝数变异相比，特异性DNA甲基化特征更能预测乳腺癌（BC）风险。人甲基化450芯片（HM450K）的DNA甲基化图谱能够以超过组织病理学的准确度对中枢神经系统癌症分型，但450K芯片仅覆盖基因组的0.1%–1%，癌症特异性甲基化变化很容易被忽略，大大影响特异性和敏感性。简化甲基化亚硫酸盐测序（RRBS）和甲基化DNA免疫沉淀测序（MeDIP-seq）是检测DNA甲基化的改进方法，RRBS和MeDIP-seq显著提高了DNA甲基化覆盖率，可以达到全基因组的10%，且能够区分各种癌症类型，但RRBS和MeDIP-seq分别基于酶切和抗体免疫沉淀，获得数据具有位点特异性。Low‐pass WGBS降低测序深度成本(约5M reads）的ctDNA WGBS测序，可以覆盖GC富集区域，但全基因组特别是GC低的区域仍需要高深度测序。CpG区域覆盖范围有限，在DNA甲基化分析中忽略了CG低的信息，导致癌症特异性信息丢失。DNA重亚硫酸盐处理将DNA中未修饰的胞嘧啶转化为尿嘧啶，同时保持5-甲基胞嘧啶（5mC），PCR扩增后测序，可以达到单碱基分辨率，将亚硫酸盐处理与下一代测序（NGS）结合，产生5mC的WGBS数据，基因组覆盖率超过70%。此外，血浆中的ctDNA浓度极低，制备WGBS文库需要约2000ng基因组DNA，显著超过临床可用血浆样品中的ctDNA水平。

本文的改进版ctDNA-WGBS，可从微量ctDNA中准确绘制全基因组甲基化图谱，从200μL血浆中提取微量ctDNA，为防止样本丢失和低ctDNA要求，将末端修复、dA加尾、接头连接和亚硫酸盐转化过程在一个管中进行。另外使用磁珠代替琼脂糖凝胶捕获，可以显著提高回收率。该方法应用于全基因组范围内以单碱基分辨率检测早期癌症患者的5mC，微量input（低至1ng）文库制备、无偏倚的全基因组覆盖和全面的计算方法，可以在多中心患者队列中以高特异性和敏感性进行早期乳腺癌（BC）检测，降低了低复发片段和非肿瘤来源ctDNA的音噪。另外，ctDNA-WGBS还可以通过DNA甲基化模式上的细微差异来区分癌症的分子分型。

图1： ctDNA 5mC测序数据生成和分析工作流程图。

ctDNA 5mC全基因组甲基化测序。从血浆中提取ctDNA，纯化的ctDNA与接头连接并进行亚硫酸盐转化。PCR扩增完成片段，然后进行磁珠捕获。
简化甲基化亚硫酸盐测序（RRBS）和全基因组亚硫酸盐测序（WGBS）数据的覆盖度：RRBS~10%，WGBS~75%。
WGBS样本覆盖率高于RRBS。
正常样本中ctDNA的平均整体甲基化水平高于癌症样本。

材料方法：

患者队列

训练集：招募38名早期/非转移性女性BC患者（平均年龄±标准差[SD]:50.87±11.05）。

第一个重复队列（测试集1）：招募15名早期/非转移性女性BC患者（平均年龄±SD:53.47±8.88）。

第二个重复队列（测试集2）：招募70名晚期/转移性女性BC患者（平均年龄±SD:50.7±10.31）。

共123名女性BC患者。

40名年龄匹配的健康女性纳入2个健康对照组，对照组1为n=25，对照组2为n=15

ctDNA-WGBS样本提取、建库测序、生信分析

从血液中提取的 DNA 储存，血液离心分离获得血浆，从约4-5 mL 血浆中平均可获得 20-80ng ctDNA，样品在使用前保持在-80°C。

结果

1ng ctDNA input的WGBS文库制备获得最佳文库质量和较高基因组覆盖率，优于现有ctDNA甲基化文库构建方法

图2：Max-cap提取的高质量ctDNA和Mini-lib全基因组重亚硫酸盐测序（WGBS）制备的文库。

Max-cap从不同样本中的0.5ml(∼200μL血浆）和1mL全血中提取的ctDNA量，实验设置三个重复。
Agilent 2100生物分析仪结果显示，Max-cap从0.5 mL (∼200μL血浆）和1 mL血液提取的ctDNA富集约160–180 bp。

C-E. LabChip GX touch对30 ng ctDNA input进行文库制备。

F. LabChip GX touch对1 ng ctDNA input的文库进行分析。

G. 与其他文库制备方法相比，只有Mini-lib可以为WGBS提供1 ng input ctDNA文库制备，实验设置3个重复。

（2）深度学习算法揭示癌症特异性复发区域

图3：循环区域的计算工作流分析。

循环区域处理的工作流程。

B和C. RRBS和WGBS分别在全基因组范围内识别的重复区域条形图

（3）高基因组覆盖率ctDNA甲基化组可实现肿瘤的灵敏检测

图4：乳腺癌早筛：ctDNA差异甲基化区域（DMR）早期检测乳腺癌。

健康对照组和早期乳腺癌患者ctDNA上583个差异甲基化区域聚类分析热图
583个差异甲基化区域聚类分析的t-随机邻域嵌入（t‐SNE）图
健康对照和早期乳腺癌患者两个队列的独立训练和测试数据集的受试者操作特征（ROC）曲线。ROC曲线表明，在训练数据和其他独立测试数据集中，健康个体和早期/晚期乳腺癌患者分类，具有相同的15个具有生物标志物潜力的差异甲基化区域。
15个潜在标志物位点箱线图。15个最佳ctDNA DMR生物标志物的平均甲基化水平分别由正常样本、早期和晚期乳腺癌样本中的4个高甲基化和11个低甲基化生物标志物组成。
健康对照组和乳腺癌患者ctDNA甲基化水平的垂直散点图

（4）ctDNA甲基化可以区分不同的癌症类型和亚型

图5： ctDNA甲基化可以作为乳腺癌亚型分类和预测ER状态的潜在生物标志物。

ER+和ER-乳腺癌样本之间的1332个差异甲基化区域（DMR）热图
ER+和ER-乳腺癌样本间的1332个DMR区域t‐SNE图
癌症基因组图谱（TCGA）450K数据对1332个DMR进行外部验证。1332个DMR中的47个在TCGA数据中是可重复的，ROC曲线表明ER+和ER-乳腺癌样本中显示出良好的区分能力
训练集中12个标志物组成的预测模型ROC曲线（训练集：30个ER+乳腺癌样本和30个ER− 乳腺癌样本）
测试集中12个标志物组成的预测模型的ROC曲线（测试集：48个ER+和13个ER− 乳腺癌样本）

关于易基因微量cfDNA基因组甲基化测序(cfDNA-BS）

cfDNA片段化严重，片段大小常在150bp左右，现有甲基化检测技术包括cfMeDIP和微量WGBS等。无法做到碱基分辨、具有抗体特异性和非特异性捕获、覆盖深度低、检测成本高等特点。常规RRBS富集约70-350bp范围酶切片段，如对于CG含量高的片段将被切割的更碎而无法检测，保留下来的片段反而是CG含量低，无甲基化信息的基因片段。

易基因研发cfDNA-RBS技术，特异性捕获CCGG位点两端的DNA，通过亚硫酸盐测序，实现高深度，单碱基分辨检测CG位点甲基化信息。DNA起始量仅需5ng，是目前肿瘤甲基化标志物检测研究的优选技术，应用场景包括肿瘤早筛、肿瘤诊断、个性化用药、实时监控、预后监测等。

技术优势：

超低起始量：100-500ul血浆或5ng cfDNA；
测序覆盖度高：20G测序数据，可达10M的CG位点覆盖，涵盖CpG岛、启动子、增强子、CTCF结合位点等多种核心调控区域
单碱基分辨率：在其覆盖范围内可精确分析每一个C碱基的甲基化状态；
性价比高：成本相对于现有技术大幅降低。

应用场景：

癌前病变的癌变预警标志物检测
肿瘤早期筛查标志物检测
肿瘤预后标志物检测
药物疗效预测标志物检测

易基因科技提供全面的DNA甲基化研究整体解决方案，技术详情了解请致电易基因。

参考文献：

Gao Y, et al. Whole-genome bisulfite sequencing analysis of circulating tumour DNA for the detection and molecular classification of cancer. Clin Transl Med. 2022 Aug;12(8):e1014. doi: 10.1002/ctm2.1014. PubMed PMID: 35998020.