分享

数据挖掘专题 | TCGA甲基化生存分析工具-MethSurv

 闲庭之雨 2018-12-03

转自 生信控

文章于2017年发表在Epigenomics杂志上:

Epigenomics. 2018 Mar;10(3):277-288. doi: 10.2217/epi-2017-0118. Epub 2017 Dec 21.

MethSurv: a web tool to perform multivariable survival analysis using DNA methylation data.

背景


DNA甲基化是当前研究最多的表观遗传修饰,对于促进胚胎发育,基因组印记和X染色体失活等重要生物过程至关重要。异常的DNA甲基化可能导致细胞微环境的变化,影响基因表达模式,最终导致各种病理状态,包括癌变。

在甲基化研究的技术手段中,Illumina In finium HumanMethylation450(HM450K)芯片近年来一直是比较流行的选择,在癌症甲基化组数据集中占主导地位。

We utilized methylome data from TCGA and used the Cox proportional-hazards model to develop an interactive web interface for survival analysis.

TCGA data


TCGA数据库中收录的主要是450K芯片的数据,也有一些早期27K芯片的数据。本文所述的MethSurv就是基于TCGA数据集中的450K数据构建的可视化分析工具。

MethSurv适用于没有特定生物信息学技能(不熟悉编程分析)的研究人员和临床医生,主要用于探索与癌症患者生存相关的甲基化生物标记物。

MethSurv中所使用的甲基化数据( β-values ):

DNA methylation status was represented as β-values (ranging from 0 to 1). The β-values are derived from methylated and unmethylated probe intensities, using the formula M/(M + U + 100). Here M and U are fully methylated and fully unmethylated intensities, respectively

以及患者临床数据(年龄、性别、分期、生存等)均来源于GDAC Firehose数据库,这些数据于2017年1月至3月期间下载完成。

所以内置数据库并非最新,最主要还是Firehose的数据更新跟不上

且由于对数据集做了筛选:

the dataset should contain at least 50 cancer patients; the dataset should contain >10% deaths.

所以实际只收录了25种癌型!

Survival analysis


MethSurv 支持单因素COX和多因素COX分析。支持的样本分类点包括 mean, median, higher and lower quantiles 和 maxsta (Maximally Selected Rank Statistics),其中使得HR值最大的分类点,定义为最优分类点 (best cut-off point)

但是缺点明显:

1、只能做OS整体生存;

2、多因素分析中纳入的临床因素有限;

3、组间生存差异用的Log-likelihood ratio,而非log-rank检验!

Annotation of the CpGs


CpG位点的注释基于Illumina官方提供的芯片注释文件,CpG位点的分类在MethSurv中主要有两种方式,在基因组上的定位(Gene centric regions)以及相对CpG岛的定位(CpG island regions),如下:

在线使用

https://biit.cs./methsurv/

打开有点慢,而且使用的时候对网络的依赖也比较大,很容易断...

以发表文献中提到的例子,查看肺腺癌(LUAD)患者中FAM53基因的甲基化情况,详细了解5个分析模块:

Single CpG


单个CpG位点的甲基化情况,如文中提到的cg07081759探针,进行如下操作:

需要注意的是:

1、在左侧筛选菜单栏,要严格按顺序填入或选择要分析的条目(意味着只有一个探针的cg号并不能很方便的使用该数据库,而要知道该探针的具体注释信息)

2、在左侧筛选菜单栏,可以自由选择Split by,即基于什么方式将样本进行分组(生存曲线中的Higher和Lower)

3、在左侧筛选菜单栏,下方勾选include covariate,然后在Covariate adjustment中选择纳入的临床因素,即可进行多因素分析(但是并不会直接显示这些临床因素单独的生存分析结果)

4、在右侧显示栏,K-M生存曲线图中,红色和蓝色的曲线并不会因为纳入或更换临床因素而改变(只与探针的甲基化程度有关),但是LR test p-vale和HR值会改变(因为在多因素分析中受其他因素的影响)

5、在右侧显示栏,密度图中,横坐标为 β-values,纵坐标为特定β-values值所对应的样本比例,可见所有样本中该CpG位点的β-values,主要分布在0.4~0.9之间。图中不同颜色的竖线表示不同的分类点,大红色为当前使用的分类点

6、在右侧显示栏,小提琴图用于表示不同样本组间甲基化差异(主要是基于临床因素的分组)

7、在右侧显示栏,生存分析结果表即为一些分析常用指标结果,注意Best_split,是使得HR结果最大时的分类点。

8、用于绘图的数据以及分析的结果均可以下载

Region based analysis


从区域(染色体、基因,也可以具体到某个探针)的水平查看结果

【必选】首先必须要选择一个特定的染色体

【可选】可以拖动染色体选框下面的碱基定位选择条,得到特定的区间

【可选】在search输入框中输入基因Symbol、探针名称或者显示的结果表中出现的任何字匹配字符。

此时,就会显示出对应的CpG位点的生存分析结果,以及注释信息。而在下方可查看某个位点的生存曲线。

需要注意的是,此处的Best_split不包含maxsta分类点,如果要找包含maxsta分类点在内的最优分类点,应该以Single CpG中的结果为准!

All cancers


显然,有时候我们想查看目标基因或CpG位点在其他癌型中的甲基化情况,就可以通过All cancers完成,在左侧输入目标基因,在右侧search输入框中输入目标探针或者癌型即可,点击表格左侧的Click for KM Plot可以查看CpG位点在该癌型患者中的预后情况( 取maxsta分类点以外的最优分类点对样本分组 )。

Top biomarkers


用于在特定癌型中,取maxsta分类点以外的最优分类点对样本分组,然后结合生存分析得到的HR值及显著性P值筛选出最优的一部分甲基化CpG位点。

Gene visualization


说来惭愧,一直没能很顺利的打开和使用这个模块...不过,据文献记载是选择一个目标癌型,输入一个目标基因就会绘制一个热图和一个PCA图,如下:

总结一下


优点:

1、不用编程;

2、操作简单;

3、用于因子初筛还是很好的选择。

缺点:

1、癌型没有TCGA官网的多;且数据未能更新;

2、只能做整体生存分析;纳入的临床因素较少;

3、除了Single CpG模块,其他模块的生存分析只有最优分类点(maxsta分类点除外)的结果;

4、不稳定,用户体验真心一般;

5、图有点丑,下下来还得修...(小编对分析有洁癖)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多