分享

【周周一读】—基于TCGA数据库的乳腺癌差异甲基化基因筛选及风险模型构建

 生物_医药_科研 2019-01-19


摘要

       筛选出乳腺癌中的差异甲基化基因,构建了乳腺癌的预后风险模型。从癌症基因组图谱(TCGA)下载用于乳腺癌相关水平3的RNA-seq数据和甲基化数据,并且使用MethylMix R包来筛选癌组织和正常组织中的差异甲基化基因。 DAVID用于分析差异甲基化基因的GO富集,ConsensusPathDB用于分析差异甲基化基因的PATHWAY途径,单因素,多变量Cox分析和Akaike信息准则(AIC)以构建乳腺癌的预后风险模型,以及ROC曲线判断风险模型的临床应用价值。在癌组织和正常组织中成功筛选出255个差异甲基化基因;与GO富集相关的39个和与PATHWAY途径相关的19个被发现;获得最佳预后风险模型,风险评分= QRFP(甲基化程度)×(-3.657)+ S100A16×(-3.378)+ TDRD1×(-4.001)+ SMO×(3.548);从每个样本确定风险评分的中值为0.936;使用它作为临界值,高风险组患者的5年生存率为72.4%(95%CI,62.7-83.6%),低风险组患者的5年生存率为86.6%(95 %CI,78.6-95.3%)。高风险组和低风险组之间存活率的差异显着(P <0.001)。>


介绍

      乳腺癌是乳腺组织中的恶性肿瘤。原位乳腺癌不是致命的,但它的细胞很容易脱落,这些脱落的癌细胞将不含血液或淋巴液而扩散到全身形成癌症,从而形成癌症转移,从而威胁生命。乳腺癌的发病率呈上升趋势,在DeSantis等人的统计数据中,美国有十分之一的女性患有乳腺癌。虽然中国不是乳腺癌发病率高的国家,但近年来中国的增长率比一些高发国家高出约2个百分点。在最近公布的数据中,乳腺癌的发病率仍然在中国癌症登记中的女性恶性肿瘤中排名第一。乳腺癌发病年龄的峰值大约是53岁,但现在它往往更年轻。

     甲基化是蛋白质和核酸的重要修饰,也是表观遗传学中最重要的研究课题之一。近年来,已经研究了甲基化在各种癌症如卵巢癌,宫颈癌和肝细胞癌的诊断,功效和预后评估中的研究。还系统地研究了甲基化在乳腺癌中的临床应用。 An等的报告提出,MGMT基因的甲基化与乳腺癌的临床分期,组织学分级和淋巴结转移密切相关,在其进展中起重要作用。 Hao等的研究表明,联合检测多种基因的甲基化程度可以很好地判断肿瘤分期和淋巴结转移。然而,这些研究集中于少数候选基因,并没有系统地筛选出可能与乳腺癌的发生和发展相关的甲基化基因。癌症基因组图谱(TCGA)和基因表达综合(GEO)是生物信息学分析中常用的公共数据库,但前者具有完整的患者数据,更有利于相关的病程和预后分析。因此,我们希望通过从TCGA数据库中筛选出乳腺癌相关甲基化基因,并分析它们与乳腺癌病程和预后的关系,扩展目前关于甲基化在乳腺癌发生和发展中作用的研究。 。


材料和方法

       数据收集:数据从TCGA数据库下载。从TCGA下载3级的RNA-seq数据和甲基化数据,并且所选样品是所有患者组织样品。首先,使用Perl语言的合并脚本将RNA-seq数据文件合并到矩阵文件中。然后,通过Ensembl数据库将基因名称从Ensembl id转换为基因符号的矩阵。同时,甲基化数据通过Perl语言的合并脚本合并为单个文件。在下载的RNA-seq数据和甲基化数据中,排除了具有不完整临床信息的数据。只有经过RNA测序和甲基化芯片数据的样品保留在剩余数据中,以便能够进行转录和甲基化的连锁分析。

       

筛选差异甲基化基因:比较所有癌组织和正常组织,并使用R Project for Statistical Computing软件(Sax软件; SAS Institute Inc.,Cary,NC,USA)中的MethylMix R软件包查找所有高甲基化基因和低甲基化基因(FDR <0.05)。)进行差异甲基化基因的双向层次聚类,并使用pheatmap r包绘制筛选出具有最显著甲基化差异的基因的差异分布图(https://cran./web/packages/pheatmap="" ,观察癌症样品相对于正常组织的甲基化程度的分布。使用pearson相关检验在r语言的cor.test函数(https://www./)中计算基因甲基化程度与相应基因表达之间的相关性(过滤条件为cor=""><-0.3)和p><>


GO富集分析:使用DAVID(用于注释,可视化和整合发现的数据库)进行差异甲基化基因的GO富集分析。首先,登录DAVID数据库(https://david./),选择功能注释,并提交差异表达基因列表。然后,选择了选择标识符中的OFFICIAL_GENE_SYMBOL,并选择了列表类型中的基因列表,最后单击了提交列表。同时,使用GOplot R包(https://cran./web/packages/GOplot/)绘制富集结果图。


PATHWAY分析:使用ConsensusPathDB的过表达分析功能(http://cpdb.molgen./)分析差异甲基化的基因。使用KEGG数据库进行差异甲基化基因的PATHWAY途径富集分析。 P <>


单因素和多变量Cox分析:为了确定与存活相关的甲基化基因,使用Survival R软件包进行差异甲基化基因的单因子Cox分析,并选择差异甲基化在单因素分析中进行P <>


生存曲线和ROC曲线绘图:根据从多变量Cox分析获得的最优风险模型和每个样品的基因甲基化程度,进行存活分数,并计算每个样品的风险分数的中值。高于中位值的患者属于高风险组,低风险组低于其中的患者。使用Kaplan-Meier方法绘制两组的存活曲线,并使用对数秩方法测试它们之间的差异。绘制ROC曲线以通过基因甲基化程度预测患者的存活时间的值。


结果

     最终获得670个样品作为研究对象,临床数据统计显示在表I中。

之后通过比较癌症和正常组织中的基因甲基化水平,筛选出257个差异甲基化基因(FDR <0.05)并绘制热图,其中有161个基因具有较高的癌症甲基化程度 组织比正常组织组织,96个基因低于正常组织。="" 使用fdr(校正的p值)作为标准,选择具有最小p值的前10个差异甲基化基因。="">


部分差异基因:

对257个差异甲基化基因的甲基化程度与其基因表达进行相关性分析,发现这257个基因的甲基化程度与其表达呈负相关。 甲基化程度越高,基因表达越低。 基于从Pearson相关性测试获得的P值,选择具有最小P值的前10个基因,并绘制相关性图。

使用DAVID进行了257个差异甲基化基因的GO富集分析,结果显示最相关的富集是'细胞外外泌体','超氧化物歧化酶活性','细胞内','肥大细胞颗粒'和'谷胱甘肽衍生物生物合成'。

     使用ConsensusPathDB对257个差异甲基化基因进行PATHWAY途径富集分析,共发现19个相关的PATHWAYs(P <0.05),其中最相关的是'd-谷氨酰胺和d-谷氨酸代谢','雌激素信号>有联系就会有线将基因与通路连接。




使用Survival R包进行差异甲基化基因的单因子Cox分析,筛选条件为P <0.01,并获得14个基因。 风险比(hr)=""> 1时,基因表达越高,风险越高; 在HR <1时,基因表达越高,风险越低。 使用survival包进行了与单因子显着不同的14种选择基因的多变量分析。="" 根据aic找到最优模型,得到4个最佳基因模型。="" 获得的风险模型是:风险评分="QRFP(甲基化程度)×(-3.657)+" s100a16×(-3.378)+="" tdrd1×(-4.001)+="">

根据从多变量Cox分析获得的最佳风险模型和每个样品的基因甲基化程度,进行存活分数。 每个样本的风险评分中位数计算为0.936,并用作临界值,335名风险评分> 0.936的患者属于高风险组,335名患者<0.936属于低风险组。 基于高风险和低风险组,使用kaplan-meier方法绘制存活曲线。="" 从生存数据可以看出,高风险组患者的5年生存率为72.4%(95%ci,62.7-83.6%),低风险组患者的5年生存率为86.6%="" (95%ci,78.6-95.3%),两组之间的差异显著(p=""><0.001)。>



结论

    乳腺癌的发生和发展与甲基化基因密切相关,如NKAPL,QRFP,S100A16,TDRD1和SMO以及相关的生物学过程和信号通路,如“细胞外外泌体”, '超氧化物歧化酶活性'和'D-谷氨酰胺和D-谷氨酸代谢'。 在条件允许的情况下,作者将对这些方面进行更深入的研究。 最近,关于乳腺癌相关基因甲基化的研究很少; 因此,作者希望他们的实验结果能够丰富该领域的研究,并为将来的临床诊断和治疗提供帮助。





计算表观遗传学

计算表观遗传学
微信号:intro4gcer

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多