分享

COX 比例风险回归模型(一起学生信)

 像你一样耀眼的 2020-02-22

不知道这个方法是干什么的童鞋请先行百度,这里不做百科

1.数据下载

从 TCGA 下载 level3 的 RNA-seq 数据,筛选条件:剔除生存时间不完整的

样本,筛选生存时间小于

30 天的数据,得到 xxx 个样本作为研究对象,样品的临

床数据统计结果如下表。

注:

Covariates 参数

Type 类型

Patients 病人数目、百分比

fustat 生存状态

2.差异表达

使用 edgeR R 包

(http://www./packages/release/bioc/html/edgeR.html)计算正

常组织和肿瘤组织的差异表达情况(|logFC|>2 & FDR<0.01),所有差异基因保存

在 01.diff/diff.xlsx

3.热图

使用 pheatmap R 包(https://cran./web/packages/pheatmap/)对差异基因进

行聚类分析(Bidirectional hierarchical clustering),差异基因聚类图如(保存在

02.heatmap/heatmap.tiff)。在聚类图中,红色代表基因在该样品中高表达,绿色代表基因在

该样品中低表达。

图 1 红色代表高表达,绿色代表低表达。图形上方正方形颜色代表样品,蓝色代表 AIP 样品,红色代表 PP样品

4.单因素 Cox 分析

使用 Survival 包对 ceRNA 网络中的 lncRNA 做单因素 Cox 分析,筛选条件 P<0.05,

网 络 中 的 44 个 DElncRNA 中 有 28 个 lncRNA 符 合 条 件

( 保 存 在7Cox/1UnivariateCox/UnivariateCox.xlsx)。

5.多因素 Cox 分析

使用 Survival 包对挑选出来与单因素显著差异的 lncRNA 进行多因素分析,

根据 Akaike Information Criterion(AIC)查找最优的模型。得到风险模型:risk

socre=ARHGAP31-AS1*(-0.3577)+ LY86-AS1*(0.1551)+WARS2-IT1*(0.2064)。

使用 Kaplan-Meier 方法对高低风险组的生存期进行比较,统计学方法选用

log-rank 。 根 据 高 低 风 险 , 绘 制 生 存 曲 线 , 如 图 12( 保 存 在 保 存 在 7Cox/

2MultiCox/survival.pdf)。

横坐标是生存时间,纵坐标是生存率。根据风险值的中位值,将病人分为高低两组图中,红色代表高表达组,蓝色代表低表达组。从图中可以看出,p<0.001,说明高低组差异显著

6.ROC 曲线

使用 survival R 包对差异绘制 ROC 曲线(保存在 07.ROC/ROC.tiff),同时计算

AUC 值。得到 AUC 值大于 0.7,说明我们的模型可以很好的预测病人的生存。

ROC 曲线下的面积值在 1.0 和 0.5 之间。在 AUC>0.5 的情况下,AUC 越接近于 1,

说明诊断效果越好。AUC 在 0.5~0.7 时有较低准确性,AUC 在 0.7~0.9 时有一

定准确性,AUC 在 0.9 以上时有较高准确性。我们分析得到三个 lncRNA 的 AUC

都大于 0.7,说明我们的模型可以很好的预测病人的生存。

7.风险曲线和热图

对于每个样品,根据公式和每个样品的 lncRNA 表达量得到每个样本的生存

打分,再根据 ROC 曲线,得到 Risk score=3.400 时敏感性和特异性最高。以 3.400

作为临界值,将病人分别分为高低风险组。然后按照病人风险值由低到高绘制下

列图形,结果保存在 07.RiskPlot 中

8.独立预后因子

将临床数据和 risk score 一起做多因素 cox 分析,得到 risk Score 多因素分析

结果(08.Independence/Independence.xlsx)。从表 4 可以看出,无论单因素还

是多因素分析,Risk score 风险值的 p 值都小于 0.05,说明我们模型得到的 Risk

score 可以癌症独立的预后因子。

根据基因的 GO 注释,选择本物种的所有基因作为背景基因,使用统计方

法计算 P 值,通过设定显著性阈值分别得到相对于背景具有统计意义的高频率

注释,从而得到基因集合在 GO 类别上的分布信息和显著性情况。

使用 DAVID 对甲基化差异基因进行 GO 功能富集分析,P<0.05 被作为筛选

条件。同时,绘制富集结果的图形。我们找到了显著富集的 GO,富集的表格如

表(05.GO/GO.xlsx),GO 的富集图形如图(05.GO/GO.tiff)。

PATHWAY 分析

从复杂调控网络的角度出发,基于常见生物学通路数据库,对正常组和癌症组差异甲基

化基因集合进行基于

PATHWAY 数据库的生物通路富集分析,从而提取出最相关的生物通

路上的基因,更加有利于下游实验的开展。

对差异甲基化基因进行

PATHWAY 通路富集分析,p-value <0.05 被作为筛选条件。富

集的通路保存在

06.PATHWAY/PATHWAY.xlsx,图形保存在 06.PATHWAY/PATHWAY.png

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多