分享

基于甲基化测序数据的癌症检测

 生物_医药_科研 2018-12-15

文章题目:CancerDetector: ultrasensitive andnon-invasive cancer detection at the resolution of individual reads usingcell-free DNA methylation sequencing data

研究人员:Department of Pathology and Laboratory Medicine, David Geffen School of Medicine, University of California

发表时间:2018. 07

期刊名称:Nucleic Acids Research

影响因子:10.162


研究亮点

开发了一种基于cell-free DNA 甲基化谱的超灵敏癌症检测方法,通过概率模拟进行信号放大,解决了cell-free DNA中肿瘤DNA的痕量问题。在实际血浆数据测试上,CancerDetector 得到了高灵敏性和特异性的结果。

研究背景

癌症早诊是提高癌症存活率的最佳方法,使用来自血液的cell-free DNAcfDNA)的非侵入式检测方法是一个热点。但是在最早期和许多晚期癌症患者的血液中肿瘤cfDNA水平非常低。解决这一问题的主流方法是使用靶向深度测序结合错误抑制技术,但是要获得良好的效果成本过高。本研究的目的即使解决检测痕量肿瘤cfDNA的挑战。

基于两点原因本研究选择了基于甲基化数据的肿瘤cfDNA检测,(i)DNA甲基化模式是普遍存在的,(ii)异常的DNA甲基化模式发生在癌症早期。该方法的关键是关注单个cfDNA测序read上多个相邻CpG位点的联合甲基化状态,以利用DNA甲基化的普遍性质进行信号放大。

研究方法

该文章针对肝癌数据进行了演示,但是该方法可以推广到任何癌症类型。方法主要包括三个主要步骤:(i)鉴定肝癌的DNA甲基化markerii)计算read含有甲基化marker的可能性,(iii)推断cfDNA组成。

图1 CancerDetector方法概述

鉴定和表征肝癌特异性甲基化marker

Step1:确定肝癌的基因组标记

选择那些甲基化水平可以区分大多数肝肿瘤样本的区域,不仅可以与它们匹配的正常肝组织区分,还有正常血浆样本。该任务包括两个步骤:(i)选择肿瘤和正常组织之间的甲基化水平差异在一半以上的“普遍差异甲基化(FDMR)”区域,用以去除肝组织特异性marker而保留肝癌特异性marker,(ii)选择能区分肿瘤样本和正常血浆样本的FDMR,该步骤确保可以在血液中鉴定甲基化信号。因为cfDNAs的测序覆盖率普遍偏低,因此使用的marker越多,这些marker可能具有的质量越低,但是可能鉴定的肿瘤衍生cfDNA read 越多,所以在实际使用时要在marker质量和数量间做一个权衡。

Step2:甲基化模式表征模型

一个给定区域,假定一类(T class和N class)中的所有样本的甲基化水平服从β分布,marker  属于 T(tumor) class 和 N(normal) class 的概率分别服从。为了简化符号,定义 

计算read属于每一类的可能性

定义所有个markers的甲基化模式为

定义一个病人覆盖M个CpG位点的所有N个read的甲基化数据集为

对于一个read,其来自class c的概率为。定义为肿瘤来源的cfDNA分数,1-

为正常组织来源的cfDNA分数,目标是计算出使最大化的,这就转变为一个最大似然问题。假设概率依赖于每一个read

可以进一步扩展为

最终只有一个需要计算的参数

图2 cfDNA分类概率计算

去除具有混淆性的marker

理想状态下早期癌症患者的值应该都很小,但是在真实的癌症患者数据中,会有许多marker因为个体差异而具有远大于全局平均值的。这些具有混淆性的marker会损害估计的准确性,研究人员通过迭代算法来去除这些具有混淆性的marker

研究成果

应用TCGA肝癌数据对模型进行训练,通过模拟数据和TCGA真实数据对模型进行测试。

(i)模拟数据实验证明了CancerDetector对检测肿瘤cfDNAs的超敏感性

图3 肝癌cfDNA样本的预测血肿瘤分数

(ii)真实数据实验证明了CancerDetector对检测肿瘤cfDNAs的高灵敏度 

图4 10次运行所得到的预测肿瘤分数(A)CancerDetector的标准偏差的平均ROC曲线,(B)之前方法的平均ROC曲线和标准偏差,(C)基于甲基化单倍型负荷的方法的标准偏差的平均ROC曲线,(D)由CancerDetector预测的肿瘤大小和平均血液肿瘤分数之间的关系


讨论

癌症早诊的成功在很大程度上取决于(i)高质量的癌症特异性甲基化marker,(ii)超灵敏的计算方法。这项研究提出了一种新方法,通过个别read的数据来解卷积整个肿瘤cfDNA,能够在低的测序深度下得到更好的结果。并且该方法的效果可以通过增加数据大小和质量来进一步增强。现阶段的研究可用的非癌血浆样本数量有限,在未来拿到更多的样本数据后,可以建立更可靠的阈值上限等参数,得到更好的检测结果。

小编评论

该研究的突破主要在于其应用了新的计算方法,一个好的模型既要以生物学意义为前提设计,也要有严谨的统计分析。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多