分享

文章解读 | 基于DNA甲基化运用机器学习对中枢神经系统肿瘤的分类诊断

 生物_医药_科研 2018-12-15

文章题目:DNAmethylation-based classification of central nervous system tumours

研究人员:德国海德堡大学和德国癌症研究中心团队

发表时间:2018.03.14

期刊名称:Nature

影响因子:40.137


研究背景

大脑的发育异常复杂,世界卫生组织(World Health Organization,WHO)对中枢神经系统(Central Nervous System,CNS)的实体脑肿瘤进行多种多样的分类,从可以经过手术治愈的良性肿瘤(毛细胞性星形肿瘤)到无药可救的高度恶性肿瘤(胶质细胞瘤),这些脑肿瘤在临床和生物学上具有多样性。之前有研究报道表明CNS肿瘤组织病理学诊断中存在大量的变异性,比如弥散性胶质瘤、室管膜瘤、原始神经外胚层肿瘤。为了更好的诊断这些肿瘤,WHO引入了新的分类标准,但是这些也只针对少部分的特定实体瘤,比如髓母细胞瘤。此外,基于DNA甲基化分析、荧光原位杂交或者免疫组织学分析都是鉴别诊断所必需但又很难将其标准化的分析方法。对肿瘤诊断的不一致性和不确定性很大程度上会影响临床治疗。

癌症甲基化是体细胞甲基化改变和细胞起源特征的组合,后者的特异性可以帮助追踪高度分化癌症的原发部位。DNA甲基化具有高度的鲁棒性和可重复性,并且被广泛应用于CNS肿瘤的精细划分。基于先前个体研究的基础,研究者提出了一个更为全面的方法,基于DNA甲基化对不同年龄分层的病例实现CNS肿瘤的准确分类。

研究方法与研究成果

1.CNS肿瘤参考队列

为建立一个全面的CNS肿瘤参考序列,研究者使用Infinium Hunman Methylation 450k BeadChip arrays生成全基因组DNA甲基化谱,这些谱图几乎表征了所有的WHO定义的神经外胚层和鞍区肿瘤(每个分组至少八个案例)。研究者研究范围包括间叶性肿瘤、黑素瘤、弥散性大B细胞淋巴瘤、浆细胞瘤和六种垂体腺瘤,针对76种组织病理学和七种CNS肿瘤的所有组织病理学实体和突变体都进行实体内和相似肿瘤实体跨组织之间的无监督聚类分析,旨在确定(i)同一组织病理学是具有不同的DNA甲基化分类,(ii)不同DNA甲基化类型的肿瘤具有不同的组织病理学表型。

该迭代过程基于DNA甲基化情况表征了82个CNS肿瘤类别(图1a)。其中29个类别和WHO的单个实体分类一样(1类);29个类别是WHO实体瘤分类的子类别(2类);有8个分类没有包含在WHO分类中(3类),11个分类的甲基化分类边界和WHO不同(4类)(图1a);剩下5个的甲基化在WHO分类中没有被定义(5类),其中三个是尚未被明确定义的星形细胞瘤,一个是新的婴儿半球形胶质瘤亚型。此外还有其他种类的罕见肿瘤,但是可纳入的病例太少。

考虑到肿瘤微环境对甲基化的影响,研究者将47个样本的炎症或者反应性肿瘤微环境纳入研究范围。研究者选取了72个样本代表了七种非CNS肿瘤区域,得到了91种肿瘤类别的2801个组合样本参考队列(图1a),运用t-SNE进行降维处理(图1b),分析表明,运用t-SEN进行甲基化分组具有很好的稳定性。对于星形细胞瘤、少突胶质细胞瘤和胶质母细胞瘤的参考队列,研究者根据癌症基因组图谱(TCGA)再次进行了细致的分类。

图1 建立基于DNA甲基化的CNS肿瘤参考队列

2. 分类器模型开发

研究者选用随机森林算法,基于几个较弱分类器的预测进行整合,然后改进预测的精度,在此整合的过程中运用91种甲基化类型的2801个样本数据生成了10000个二元决策树,这些决策树将每个样本都进行了归类,得到了总体原始评分图(图2a)。为了获得具有指导诊断决策的分类概率估算,研究者运用多项逻辑回归拟合模型将原始得分转化为划分类别置信度的概率(校正分数),这样就可以将不同原始分数的分类结果进行比较。随机森林分类器的交叉验证结果显示对原始数据的错误率在4.98%,对校正分数的错误率在4.28%,ROC曲线面积为0.99,这表明其较高的识别能力(图2b)。绝大多数交叉验证错误发生于8种组织学和生物学密切相关的肿瘤类别内,造成的差异目前对临床没有影响。研究者将这8种的校正得分总和定义为1,将交叉验证错误率降到了1.14%(图2b)。将得分最高的分类运用多分类方法,预测结果的总体敏感度和特异性分别达到了0.989和0.999。研究者根据ROC曲线设置了最佳校正分数的阈值≥0.9,将≥0.5设定为足以可以有效预测的阈值。

图2 基于DNA甲基化的CNS肿瘤分类器的开发和交叉验证

3.临床应用

为了评估临床适用性,研究者对1155例可根据标准组织病理学进行诊断的样本进行了分析(图3a,b),其中51例(4%)由于肿瘤细胞含量太低不适合用于甲基化分析,对剩余的1104个样本匹配(校正分数≥0.9)和匹配不到(校正分数<0.9)的甲基化分类进行分析,这些病例包含成人(71%)和幼儿(29%)的64种不同组织病理学实体。预测结果中88%的特征样本(1104样本中的977个)与已知的甲基化类别匹配中分值≥0.9(图3b)的结果一致,其中838例(76%)的预测结果和DNA甲基化分析结果一致,171例样本可以划分到明确的分子亚群中。

图3 分类器的临床实践

在分类得分≥0.9的剩余139例样本中的DNA甲基化类别和病理学诊断结果不一致,研究者对这些病例进行了组织学、分子学以及分子诊断(DNA拷贝数分析、靶向基因测序和基因融合分析)的重新评估,重新对139例中的129例(所有病例的12%)进行了组织病理学诊断,重新修订以更好的进行甲基化分类预测。与最近报道一致的是IDH-野生型星形细胞瘤和间变性星形细胞瘤被重新归类为IDH-野生型成胶质细胞瘤,在这129例中只有10例不一致的问题无法解决,因此保留了其原本的组织病理学诊断(图4)。

图4 对结果不一致的病例重新进行评估以及诊断

为了证实临床实践中的效果,研究者联系了五个外部中心采用该算法进行病例的甲基化诊断,这些中心分析了401个病例,其中50个(12%)病例进行了甲基化分析的重新诊断,这和研究者的重新诊断分类率非常接近。对于单个中心而言,重新分类的比率在6%-25%,可能是由于病例的图谱差异或者是一些中心的前期分子测试造成的。,采用≥0.9的评分划分阈值(图3b)对1104例中不能被分配的127例DNA甲基化进行分类,经过分析发现这些病例可能代表了还未被识别的新的分子实体(图5)。

图5 基于DNA甲基化的潜在新型CNS肿瘤鉴定

4. 技术和实验测试

随机森林分类稳定运用实验室之间测试结果的比较并对其进行衡量,两个独立实验室结果高度相关,53个样本中只有2个样本的分类评估得分略低于0.9,而其他所有病例分类结果相同。为了确定技术的兼容性,研究者使用该分类器所研究的新的Infinium Methylation EPIC BeadChip DNA甲基化阵列和高覆盖率的亚硫酸氢盐测序数据。对于两个不同阵列上的16个CNS肿瘤样品,原始分数和校正分数高度相关,经过使用分类算法之后划分的类别也相同,这表明该技术在不同DNA甲基化分析技术上具有相应的适应性。

5.平台的全球可使用性

研究者将数据上传、自动规范化、随机森林分类和PDF报告生成创建成了一个免费在线平台以供各地区进行访问(https://www.),并额外提供了DNA拷贝数概况和MGMT启动子甲基化状态。数据上传者可以选择同意允许数据用于进一步的分类器开发。研究者期望该平台可以成为全球的枢纽以持续追踪和识别罕见的肿瘤类别,进而将其添加到已知人类癌症目录中。在该网站公布后的一年里有超过4500个病例从15个研究中心上传。


讨论

研究者基于DNA甲基化运用机器学习方法实现了CNS肿瘤的分类,该方法的高标准性有望大幅度降低当前CNS肿瘤诊断中的间变异质性。相比于传统病理学诊断,该分类器针对那些非典型或者难以诊断的病例提供“不匹配”的结果信息,对于强调该肿瘤不是典型分类也具有重要价值,说明该肿瘤很可能属于一种罕见的、目前尚未定义的类别。在该工作中研究者定义的五种不同临床意义的甲基化类别,第一类是WHO组织实体;第二类是WHO组织实体的子类别;第三类反应了WHO分类不能完全涵盖所有甲基化的事实,需要进一步用数据评估甲基化的类别;第四类中WHO实体边界与甲基化类别的边界不同,所以在获得确切边界数据之前应严格划分此类别,并尽可能的进行正交试验;第五类是尚未被WHO认可的实体,很可能是尚未被认定的新类别。目前,德国正在进行基于DNA甲基化将所有儿童的肿瘤参比到病理学和分子诊断进行肿瘤分类,预期在未来几年内取得成果。

分类算法的统一实施对于跨组织和跨临床试验的标准化肿瘤诊断具有重大意义,此外,甲基化数据的数字化有利于广泛的肿瘤数据库的信息聚集和转换,这将为罕见肿瘤的诊断和分类带来极大的便利。随着新类别肿瘤不断纳入诊断实践中,这将会导致肿瘤的诊断更加动态,研究者证明这种技术在实验室诊断中是相对简单的。该研究工作表明将DNA甲基化标记纳入组织学和分子肿瘤分类的原理中不仅会提高神经病理学诊断的准确性,还有望拓展至其他肿瘤的病理学研究领域中。


文章总结

本文研究者基于DNA甲基化数据,运用随机森林算法构建了分类模型,实现了91种CNS肿瘤的准确分类,改善了脑肿瘤的诊断。机器学习再次以标准化、快速、高准确率应用到医学领域的疾病诊断中,这种整合甲基化指纹进行脑肿瘤自动分类也为其他肿瘤的分类提供了一种全新的思路。


小编评论

人工智能(AI)应用到疾病诊断中,提高了医生的工作效率,更重要的是AI诊断的准确率似乎也在不断超越有经验的医生,人类在攻克癌症的道路上一直困难重重,AI会不会就是攻克癌症的一把利器呢?


参考文献

[1] DavidCapper, David T. W. Jones, et al. DNAmethylation-based classification of central nervous system tumours[J]. Nature, 2018,555: 469–474.

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多