分享

TCGA数据库

 太行郎中 2018-11-22

甲基化驱动基因文章套路

作者:光俊

TCGA相关的文章越来越多,今天给大家讲解下,一个最新的2018年发表的6分文章套路。TCGA挖掘的文章比较多,常规的mRNA,miRNA,甚至lncRNA的文章都很多了。但是相对来说,甲基化、SNP、CNV这几类的文章还是不多。所以,我们2018年的重点视频就是从甲基化、SNP、CNV这几个方向。

下面,我介绍下TCGA甲基化驱动基因的套路。首先,我们从TCGA下载甲基化数据和转录组数据,然后分别提取得到甲基化矩阵和转录组矩阵。然后将甲基化数据和转录组数据合并,合并后,我们把满足三个条件的基因,作为甲基化驱动基因。1. 基因在正常组和癌症组表达具有差异;2. 甲基化在正常组和癌症组具有差异;3. 基因表达甲基化程度具有相关性。

驱动基因结果

使用 R包比较所有癌症组织及正常组织,寻找所有hypermethylated及hypomethylated 的基因(过滤条件为fdr<0.05),并对hypermethylated及hypomethylated 的基因绘制图形。Hypermethylated基因保存在02.diff/hypermethylated.xlsx,hypomethylated基因保存在02.diff/hypomethylated.xlsx。 Hypermethylated基因的图形保存在02.diff/hypermethylated目录下,hypomethylated基因的图形保存在02.diff/hypomethylated目录下。

 


图 hypermethylated基因图

横坐标是甲基化程度,纵坐标是甲基化样品数目,柱状图代表癌症组甲基化分布,曲线是癌症组甲基化分布模拟的趋势曲线。图形上方的黑色水平线是正常样品的甲基化水平分布,从图中可以明显看出相对于正常样品,癌症样品甲基化程度的分布情况。

 

对差异甲基化的基因,计算基因甲基化程度和基因表达的相关性,得到相关性检验的结果(过滤条件为cor< -0.3 & Pvalue < 0.05)。相关性结果保存在03.cor/cor.xlsx中,hypermethylated基因相关性的图片保存在03.cor/hypermethylatedCor目录下,hypomethylated基因相关性的图片保存在03.cor/hypomethylatedCor目录下。

 


图 相关性图形

横坐标坐标是基因的甲基化程度beta值,纵坐标是该基因的表达量。Cor是相关系数,p-value是相关性的检验值。

 


热图

使用pheatmap R包(https://cran./web/packages/pheatmap/)对差异基因进行聚类分析(Bidirectional hierarchical clustering),差异基因聚类图如(保存在02.heatmap/heatmap.tiff)。在聚类图中,红色代表基因在该样品中高表达,绿色代表基因在该样品中低表达。

 

图 红色代表高表达,绿色代表低表达。图形上方正方形颜色代表样品,蓝色代表AIP样品,红色代表PP样品。

 

 

生存分析

生存期(survival time)是指从某个标准时刻(如发病,确诊,开始治 疗或进行手术的时间)算起至死亡或复发为止的时间。生存曲线以时间为横轴、生存率为纵轴,将各个时点的生存率连接在一起的曲线图。通过绘制生存曲线,可以直观地展示病人的生存期。

使用survival R包对差异基因分别做生存分析(KM分析),采用log-rank方法。我们以P<0.05作为筛选条件,得到230个与生存相关的基因,结果保存在02_survival/survival.xlsx,这些生存相关基因的生存曲线保存在02_survival/Picture目录下。

 



 

 

图 生存曲线

横坐标是生存时间,纵坐标是生存率。根据基因表达的中位值,将病人分为高低两组图中,红色代表高表达组,蓝色代表低表达组。从图中可以看出,p<0.05,说明高低组差异显著。

 

GO富集分析

Gene Ontology 可分为分子功能( Molecular Function),生物过程 ( Biological Process)和细胞组成( CellularComponent)三个部分,它常用于提供基因功能分类标签和基因功能研究的背景知识。通过物种和基因信息,用 Gene Ontology 数据库进行查找,从而得到基因的 GO 注释信息(功能信息)。

根据基因的 GO 注释,选择本物种的所有基因作为背景基因,使用统计方法计算 P 值,通过设定显著性阈值分别得到相对于背景具有统计意义的高频率注释,从而得到基因集合在 GO 类别上的分布信息和显著性情况。

使用DAVID对甲基化差异基因进行GO功能富集分析,P<0.05被作为筛选条件。同时,我们使用GOplot R包绘制富集结果的图形。我们找到了显著富集的GO,富集的表格如表(05.GO/GO.xlsx),GO的富集图形如图(05.GO/GO.tiff)。

 


图 GO富集图

圆圈左边是基因,右边是通路。不同的颜色代表不同的通路,各个通路的颜色在圆圈下方有注释。如果基因属于某个通路,那么基因和通路之间就会有连线。

 

 

PATHWAY分析

从复杂调控网络的角度出发,基于常见生物学通路数据库,对正常组和癌症组差异甲基化基因集合进行基于PATHWAY数据库的生物通路富集分析,从而提取出最相关的生物通路上的基因,更加有利于下游实验的开展。

使用ConsensusPathDB分别对差异甲基化基因进行PATHWAY通路富集分析,p-value <0.05被作为筛选条件。富集的通路保存在06.PATHWAY/PATHWAY.xlsx,图形保存在06.PATHWAY/PATHWAY.png。 

 

图 PATHWAY图

图中圆圈代表通路,连线代表通路之间存在关系。圆圈大小代表通路的基因数目,越大代表通路基因数据越多;圆圈颜色代表富集显著p值,越红代表富集程度越高。线条粗线代表通路相同基因的数目,线条颜色通路之前相同差异的数目。

 



    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多