转自 生信控 文章于2017年发表在Epigenomics杂志上:
背景DNA甲基化是当前研究最多的表观遗传修饰,对于促进胚胎发育,基因组印记和X染色体失活等重要生物过程至关重要。异常的DNA甲基化可能导致细胞微环境的变化,影响基因表达模式,最终导致各种病理状态,包括癌变。 在甲基化研究的技术手段中,Illumina In finium HumanMethylation450(HM450K)芯片近年来一直是比较流行的选择,在癌症甲基化组数据集中占主导地位。
TCGA dataTCGA数据库中收录的主要是450K芯片的数据,也有一些早期27K芯片的数据。本文所述的MethSurv就是基于TCGA数据集中的450K数据构建的可视化分析工具。 MethSurv适用于没有特定生物信息学技能(不熟悉编程分析)的研究人员和临床医生,主要用于探索与癌症患者生存相关的甲基化生物标记物。 MethSurv中所使用的甲基化数据( β-values ):
以及患者临床数据(年龄、性别、分期、生存等)均来源于GDAC Firehose数据库,这些数据于2017年1月至3月期间下载完成。 所以内置数据库并非最新,最主要还是Firehose的数据更新跟不上 且由于对数据集做了筛选:
所以实际只收录了25种癌型! Survival analysisMethSurv 支持单因素COX和多因素COX分析。支持的样本分类点包括 mean, median, higher and lower quantiles 和 maxsta (Maximally Selected Rank Statistics),其中使得HR值最大的分类点,定义为最优分类点 (best cut-off point) 但是缺点明显: 1、只能做OS整体生存; 2、多因素分析中纳入的临床因素有限; 3、组间生存差异用的Log-likelihood ratio,而非log-rank检验! Annotation of the CpGsCpG位点的注释基于Illumina官方提供的芯片注释文件,CpG位点的分类在MethSurv中主要有两种方式,在基因组上的定位(Gene centric regions)以及相对CpG岛的定位(CpG island regions),如下: 在线使用 https://biit.cs./methsurv/ 打开有点慢,而且使用的时候对网络的依赖也比较大,很容易断... 以发表文献中提到的例子,查看肺腺癌(LUAD)患者中FAM53基因的甲基化情况,详细了解5个分析模块: Single CpG单个CpG位点的甲基化情况,如文中提到的cg07081759探针,进行如下操作: 需要注意的是: 1、在左侧筛选菜单栏,要严格按顺序填入或选择要分析的条目(意味着只有一个探针的cg号并不能很方便的使用该数据库,而要知道该探针的具体注释信息) 2、在左侧筛选菜单栏,可以自由选择Split by,即基于什么方式将样本进行分组(生存曲线中的Higher和Lower) 3、在左侧筛选菜单栏,下方勾选include covariate,然后在Covariate adjustment中选择纳入的临床因素,即可进行多因素分析(但是并不会直接显示这些临床因素单独的生存分析结果) 4、在右侧显示栏,K-M生存曲线图中,红色和蓝色的曲线并不会因为纳入或更换临床因素而改变(只与探针的甲基化程度有关),但是LR test p-vale和HR值会改变(因为在多因素分析中受其他因素的影响) 5、在右侧显示栏,密度图中,横坐标为 β-values,纵坐标为特定β-values值所对应的样本比例,可见所有样本中该CpG位点的β-values,主要分布在0.4~0.9之间。图中不同颜色的竖线表示不同的分类点,大红色为当前使用的分类点 6、在右侧显示栏,小提琴图用于表示不同样本组间甲基化差异(主要是基于临床因素的分组) 7、在右侧显示栏,生存分析结果表即为一些分析常用指标结果,注意Best_split,是使得HR结果最大时的分类点。 8、用于绘图的数据以及分析的结果均可以下载 Region based analysis从区域(染色体、基因,也可以具体到某个探针)的水平查看结果 【必选】首先必须要选择一个特定的染色体 【可选】可以拖动染色体选框下面的碱基定位选择条,得到特定的区间 【可选】在search输入框中输入基因Symbol、探针名称或者显示的结果表中出现的任何字匹配字符。 此时,就会显示出对应的CpG位点的生存分析结果,以及注释信息。而在下方可查看某个位点的生存曲线。 需要注意的是,此处的Best_split不包含maxsta分类点,如果要找包含maxsta分类点在内的最优分类点,应该以Single CpG中的结果为准! All cancers显然,有时候我们想查看目标基因或CpG位点在其他癌型中的甲基化情况,就可以通过All cancers完成,在左侧输入目标基因,在右侧search输入框中输入目标探针或者癌型即可,点击表格左侧的Click for KM Plot可以查看CpG位点在该癌型患者中的预后情况( 取maxsta分类点以外的最优分类点对样本分组 )。 Top biomarkers 用于在特定癌型中,取maxsta分类点以外的最优分类点对样本分组,然后结合生存分析得到的HR值及显著性P值筛选出最优的一部分甲基化CpG位点。 Gene visualization说来惭愧,一直没能很顺利的打开和使用这个模块...不过,据文献记载是选择一个目标癌型,输入一个目标基因就会绘制一个热图和一个PCA图,如下: 总结一下 优点: 1、不用编程; 2、操作简单; 3、用于因子初筛还是很好的选择。 缺点: 1、癌型没有TCGA官网的多;且数据未能更新; 2、只能做整体生存分析;纳入的临床因素较少; 3、除了Single CpG模块,其他模块的生存分析只有最优分类点(maxsta分类点除外)的结果; 4、不稳定,用户体验真心一般; 5、图有点丑,下下来还得修...(小编对分析有洁癖) |
|