分享

绝对干货 | 利用1494例肿瘤数据,如何预测驱动基因?

 生物_医药_科研 2019-03-22

《精准医学前沿》组建了10余个生物医学高水平博士专业微信交流群,包括基因检测,医学人工智能,肿瘤,基因解读与遗传咨询,基因编辑,干细胞医学,单细胞,ncRNA,宏基因组,表观修饰,单基因病,病原微生物,医学神经,心脑血管等。长按以下二维码加微信(Precision_medcine),并备注想加入的群,再邀入群。博士和在读博士可申请加入高水平博士群。

粉丝福利关注精准医学前沿公众号,后台回复“最新指南”,可以获取以下重磅福利

精准医学前沿


研究背景

       基因突变会导致癌症驱动基因的活化和抑制基因的失活,使得癌症发生和转移,而其中驱动突变尤为重要,这种突变使得肿瘤细胞获得抵抗免疫细胞清除及药物治疗的选择性生长优势。癌症驱动基因的发现无论是对癌症病理的研究还是对癌症的诊断、预防、临床治疗和癌症靶向药物的研发都具有十分重要的意义。找到这些关键的驱动基因,可以帮助我们很好的认识肿瘤发生的机制,并以此对肿瘤进行分类和制定相应的治疗方案。

       为了找到驱动基因,研究者们开发出一系列的肿瘤驱动基因软件和整理了很多数据库。今天带大家了解下当下肿瘤突变预测的软件和数据库,看看是不是有一款是你需要的呢!

驱动基因预测软件

       目前这些预测方法可以分为四大类:基于基因功能算法、基于通路算法、基于机器学习的算法、基于频率的算法,见表1。

1) 基于基因功能的算法:根据突变基因对应的蛋白信息构建基因突变有害性的评价模型,最终将有害性较高的基因认定为驱动基因。

2) 基于通路的方法:通过观察基因间的相互作用和基因表达生成的蛋白质对生物信号通路的影响判断是否为癌症驱动基因。

3) 基于机器学习的算法:通过对已知驱动基因和乘客基因的突变数据构建分类器,并使用该分类器对新的突变数据进行分类,此类方法需要先确定与癌症相关的基因易感位点和确定与癌症相关的特征,需要大量的临床知识。

4) 基于频率的算法:基于癌症驱动基因比乘客基因的突变频率较高这一原理,使用统计算法计算出高频突变频率高于背景突变频率的基因为癌症驱动基因,这类方法在现有报道中较为常用。

1.  驱动基因筛选软件

下面具体介绍几款软件的原理

       MutSigCV、MuSiC两款软件的原理比较相似,其中MutSigCV是MuSiC的升级版:考虑了肿瘤异质性,寻找相对于背景突变的高频突变。MutSigCV根据突变信息建立一个突变背景模型,根据模型判断每个基因的突变是否比偶然突变更显著。其统计原理参考下图1:首先计算肿瘤样本对应染色体上基因的体细胞突变,红色三角表示;其次对所有样本该基因上的体细胞突变数目累加;最后根据前期构建的突变背景模型计算其显著性。MutsigCV综合考虑DNA复制时间、染色体特性转录活性整体水平等因素,对于超大样本结果分析更准确。

图1. SMG检测原理

       驱动基因预测的主流方式是寻找高频突变基因(SMG),但是也有局限性,OncodriveCLUST是基于蛋白编码破坏程度的预测方式,是驱动基因检测的补充。OncodriveCLUST分析软件利用驱动突变在位点分布上具有形成突变簇的偏好性以及利用同义突变无偏分布的特点构建背景突变模型,寻找可能的驱动突变。

       OncodriveFML(functional mutation)是根据功能突变有害性进行预测(见图2),即如果基因发生了影响功能域的突变,则该基因可以作为候选的驱动基因,并且有研究结果也表明高频突变和已知的驱动基因具有较为明确的FM (功能突变)偏好性。

图2. OncodriveFML检测原理

驱动基因相关数据库

       对于分析获得的潜在驱动基因,需要与已知的驱动基因进行比较,筛选出致病的驱动基因,表2列出了一些权威的驱动基因数据库:

1)CGC(Cancer Gene Census):现包含724个驱动基因,数据库对基因突变和癌症因果关联进行分类,信息包括发生基因突变的染色体位置、已有报道的基因突变类型和种类以及一些遗传特性等。

2) 另一个是 Bert Vogelstein 125,是著名的肿瘤学家Bert Vogelstein在2013年发表在SCIENCE上的论文,该研究揭示了125个驱动基因。

3) 第三、四个都是TCGA的研究成果,基于多癌症体细胞突变数据、 软件和人工修正的合成结果最终确定癌症基因。DriverDBv2数据库是结合了TCGA(The Cancer Genome Atlas)数据库中约13,000个外显子测序数据和超过9,500个肿瘤相关的RNA测序数据,包括了24个组织部位的肿瘤,采用了15种算法对每种特定的肿瘤进行了驱动基因的检测。

4)InTOGen数据库是通过对转录本的改变、拷贝数的变化、肿瘤的减少来识别肿瘤类型中的驱动突变,并提供系统分析的结果。目前该数据库中包含459个驱动基因和22个易感基因,涉及28种癌种,包括乳腺癌、膀胱癌、食管癌、结直肠癌等。

1.  驱动基因筛选软件

下面介绍一篇肝癌领域研究驱动基因的文献

文章题目:Multi-modal meta-analysis of 1494 hepatocellular carcinoma samples reveals significant impact of consensus driver genes on phenotypes

杂志名称:Clinical Cancer Research

发布日期:2018.9.21

       尽管对肝癌的驱动基因已经有了相关研究,但是不同人群中驱动基因的特点仍是未知的。本文针对1,494例肝癌患者,6个队列进行了驱动基因的研究,并研究了它们与转录、患者预后的关系,技术路线如下:

图3. 整体研究技术路线

      作者分别从TCGA、ICGA下载了6个队列的数据,数据涵盖WES/WGS、RNA-seq、microRNA和临床数据。为了保证6个队列中驱动基因检测的一致性,利用 MutSigCV 和 OncodriverFM 两个模块检测驱动基因(见图4A),经过2个步骤确定驱动基因:a)基于 q-value 筛选:MutSigCV、OncodriverFM 检测结果中至少有3个队列的 q-value<0.1 并且所有样本的平均 q-value<0.1,此时筛选出来的基因成为“共有”驱动基因;b) 基于p-value筛选:MutSigCV、OncodriverFM 两个模块的Fisher’s检验结果 p-value 均 <0.05,经过2步筛选,确定出10个驱动基因。TP53  AXINI 是6个队列中都存在的驱动基因,然而还有一些低频的突变基因(如:CDKN2A,NFE2L2,ACVR2A,突变频率小于5%)可以在 MutSigCV 中被检测出(见图4)。说明这个标准可以检测一些低频但是重要的驱动基因。

图4. 分析流程图和驱动基因结果

       对于至少存在2个驱动基因的患者,其比例在不同的队列存在差异:TCGA(26.5%)、LINC-JP(42.6%)、LIRI-JP(27.5%)、LICA-FR(37.3%)、 KOREAN(16%)、 LICI –CN(17.2%)。其中 LICA-CN 和其他5个队列的驱动基因分布趋势图差异较大,CTNNB1 突变率最低(见图5)。这一例外可能因为 LICA-CN 队列中的患者来源是 HBV 感染,这个特点和之前报道的 HBV 感染的 HCC 患者较少出现 CTNNB1 突变是一致的。

图5. 不同队列驱动基因的分布图

       基于基因表达量数据,找到12,837个与驱动基因显著相关(p-value<0.05)的基因,对这些显著相关的基因做了富集分析,一共检测到86个显著相关的通路,TP53、CTNNB1、ARID1A和这些富集的通路关系最为紧密,其中信号通路相关的通路受驱动基因的影响更显著,尤其是与PI3K-Akt、Wnt相关的通路。图6中的热图也显示TP53与与代谢和人类疾病相关的通路关系最密,其次是CTNNB1、ARID1A(见图6)。

图6. 驱动基因和代谢通路的关系

       对其中4个队列 ( TCGA、LINC-JP、LIRI – JP 和 LICA-FR ) 的驱动基因和生存数据构建 Cox-PH 模型,考虑了年龄、性别、分期等因素的影响,以 MPI (中位数预后指数)为阈值将样本分为高风险和低风险组。分别对四个队列的高低风险组进行 Kaplan-Meier 生存曲线分析,其 Log Rank p-value 均小于0.05,说明高、低风险组的生存曲线是具有显著差异,结果见图7。

图7. 生存分析

 总结:

       癌症驱动基因的预测和筛选无论在癌症形成理论研究还是新型靶向抗癌药物和癌症临床诊断都有十分重要的意义,本文基于1,494例 HCC患者、6个队列数据确定了10个与肝癌相关的驱动基因以及研究了它们与转录、患者预后的关系,尽管HCC具有较高的异质性,但是结果表明驱动基因和基因表达、分子通路有重要的联系。总之,该研究为HCC靶向基因研究提供了一个重要的参考,可以作为HCC治疗的候选靶点。

参考文献

[1] Bailey, M. H., et al. Comprehensive Characterization of Cancer Driver Genes and Mutations. Cell 173, 371–385, April 5, 2018

[2] Dees N D, Zhang Q, Kandoth C, et al. MuSiC: identifying mutational significance in cancer genomes[J]. Genome research, 2012, 22(8): 1589-1598.

[3] Tamborero D, Gonzalez-Perez A, Lopez-Bigas N. OncodriveCLUST: exploiting the positional clustering of somatic mutations to identify cancer genes[J]. Bioinformatics, 2013, 29(18): 2238-2244.

[4] Mularoni, Loris, et al. 'OncodriveFML: a general framework to identify coding and non-coding regions with cancer driver mutations.' Genome biology 17.1 (2016): 128.

[5] Kandoth C, McLellan M D, Vandin F, et al. Mutational landscape and significance across 12 major cancer types[J]. Nature, 2013, 502(7471): 333.

[6] Tamborero D, Gonzalez-Perez A, Perez-Llamas C, et al. Comprehensive identification of mutational cancer driver genes across 12 tumor types[J]. Scientific reports, 2013, 3: 2650.

[7] Gonzalez-Perez A, Perez-Llamas C, Deu-Pons J, et al. IntOGen-mutations identifies cancer drivers across tumor types[J]. Nature methods, 2013, 10(11): 1081-1082.

2019生物医学科研岗位招聘回顾

1. 2019年3月13日:生物医药博后等科研岗位招聘第4期

2. 2019年2月25日:生物医药博后等科研岗位招聘第3期

2. 2019年2月17日:生物医药博后等科研岗位招聘第2期

3. 2019年2月13日:生物医药博后等科研岗位招聘第1期

2019年2月精准医学前沿专题回顾

1. 2019年NCS必读系列盘点介绍

2. 2019年2月生物医学各大领域重大进展盘点

3.2019年1月精准医学前沿专题回顾(点击访问)


版权声明

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多