COX 比例风险回归模型（一起学生信）

像你一样耀眼的 2020-02-22

展开全文

不知道这个方法是干什么的童鞋请先行百度，这里不做百科

1.数据下载

从 TCGA 下载 level3 的 RNA-seq 数据，筛选条件：剔除生存时间不完整的

样本，筛选生存时间小于

30 天的数据,得到 xxx 个样本作为研究对象，样品的临

床数据统计结果如下表。

注：

Covariates 参数

Type 类型

Patients 病人数目、百分比

fustat 生存状态

2.差异表达

使用 edgeR R 包

(http://www./packages/release/bioc/html/edgeR.html)计算正

常组织和肿瘤组织的差异表达情况(|logFC|>2 & FDR<0.01)，所有差异基因保存

在 01.diff/diff.xlsx

3.热图

使用 pheatmap R 包(https://cran./web/packages/pheatmap/)对差异基因进

行聚类分析(Bidirectional hierarchical clustering)，差异基因聚类图如(保存在

02.heatmap/heatmap.tiff)。在聚类图中，红色代表基因在该样品中高表达，绿色代表基因在

该样品中低表达。

图 1 红色代表高表达，绿色代表低表达。图形上方正方形颜色代表样品，蓝色代表 AIP 样品，红色代表 PP样品

4.单因素 Cox 分析

使用 Survival 包对 ceRNA 网络中的 lncRNA 做单因素 Cox 分析，筛选条件 P<0.05，

网络中的 44 个 DElncRNA 中有 28 个 lncRNA 符合条件

( 保存在7Cox/1UnivariateCox/UnivariateCox.xlsx)。

5.多因素 Cox 分析

使用 Survival 包对挑选出来与单因素显著差异的 lncRNA 进行多因素分析，

根据 Akaike Information Criterion(AIC)查找最优的模型。得到风险模型：risk

socre=ARHGAP31-AS1*(-0.3577)+ LY86-AS1*(0.1551)+WARS2-IT1*(0.2064)。

使用 Kaplan-Meier 方法对高低风险组的生存期进行比较，统计学方法选用

log-rank 。根据高低风险，绘制生存曲线，如图 12( 保存在保存在 7Cox/

2MultiCox/survival.pdf)。

横坐标是生存时间，纵坐标是生存率。根据风险值的中位值，将病人分为高低两组图中，红色代表高表达组，蓝色代表低表达组。从图中可以看出，p<0.001，说明高低组差异显著

6.ROC 曲线

使用 survival R 包对差异绘制 ROC 曲线(保存在 07.ROC/ROC.tiff)，同时计算

AUC 值。得到 AUC 值大于 0.7，说明我们的模型可以很好的预测病人的生存。

ROC 曲线下的面积值在 1.0 和 0.5 之间。在 AUC>0.5 的情况下，AUC 越接近于 1，

说明诊断效果越好。AUC 在 0.5～0.7 时有较低准确性，AUC 在 0.7～0.9 时有一

定准确性，AUC 在 0.9 以上时有较高准确性。我们分析得到三个 lncRNA 的 AUC

都大于 0.7，说明我们的模型可以很好的预测病人的生存。

7.风险曲线和热图

对于每个样品，根据公式和每个样品的 lncRNA 表达量得到每个样本的生存

打分，再根据 ROC 曲线，得到 Risk score=3.400 时敏感性和特异性最高。以 3.400

作为临界值，将病人分别分为高低风险组。然后按照病人风险值由低到高绘制下

列图形，结果保存在 07.RiskPlot 中

8.独立预后因子

将临床数据和 risk score 一起做多因素 cox 分析，得到 risk Score 多因素分析

结果（08.Independence/Independence.xlsx）。从表 4 可以看出，无论单因素还

是多因素分析，Risk score 风险值的 p 值都小于 0.05，说明我们模型得到的 Risk

score 可以癌症独立的预后因子。

根据基因的 GO 注释，选择本物种的所有基因作为背景基因，使用统计方

法计算 P 值，通过设定显著性阈值分别得到相对于背景具有统计意义的高频率

注释，从而得到基因集合在 GO 类别上的分布信息和显著性情况。

使用 DAVID 对甲基化差异基因进行 GO 功能富集分析，P<0.05 被作为筛选

条件。同时，绘制富集结果的图形。我们找到了显著富集的 GO，富集的表格如

表(05.GO/GO.xlsx)，GO 的富集图形如图(05.GO/GO.tiff)。

PATHWAY 分析

从复杂调控网络的角度出发，基于常见生物学通路数据库，对正常组和癌症组差异甲基

化基因集合进行基于

PATHWAY 数据库的生物通路富集分析，从而提取出最相关的生物通

路上的基因，更加有利于下游实验的开展。

对差异甲基化基因进行

PATHWAY 通路富集分析，p-value <0.05 被作为筛选条件。富

集的通路保存在

06.PATHWAY/PATHWAY.xlsx，图形保存在 06.PATHWAY/PATHWAY.png

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：像你一样耀眼的 > 《实验》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

像你一样耀眼的

关注对话

TA的最新馆藏

[转] 胆固醇的代谢与肿瘤
[转] shRNA跟siRNA的区别
[转] 癌症基因表达数据库（二）
[转] 当投稿遭遇审稿人补实验要求，如何机智应对？
[转] 分子克隆的正确打开方式 | 质粒构建之引物设计（三）
[转] 泛素化专刊：通路调控、病理过程、药物研发和实验手段

喜欢该文的人也喜欢更多

热门阅读换一换