今天给大家写写生存分析:
生存分析研究的我们感兴趣的事件发生的时间的分布情况。这里面的“生存”不一定指存活,因为生存分析在医学随访数据中用的很多,而这类数据的随访终点往往就是病人死亡,所以才叫做生存。生存分析研究的时间分布也不一定是真的时间,比如我想研究汽车使用时间与汽车发生故障之间的关系,因为汽车很多时候是闲置的,所以这种情况下,时间应该为汽车行驶的里程数。 基本概念事件: 事件是指研究者所关心的事件发生了,事件发生的时间点,也就是生存时间的记录终点。 生存时间: 删失: 生存函数和风险函数生存分析刻画的是生存时间的分布情况,这里的分布指的是概率分布,如何形象刻画生存时间的分布情况呢? 一个就是生存函数S(t):
生存函数就是这个病人活下来的概率和时间的关系。 另一个就是风险函数h(t):
风险函数就是这个病人死亡的概率和时间的关系,就是我们在t时刻刚好发生目标事件的概率。 Kaplan-Meier计算生存函数Kaplan-Meier 法 是由Kaplan和Meier于1958年提出,直接用概率乘法定理估计生存率,故称乘积极限法(product-limit method),是一种非参数法。根据时刻t及其之前各个时间点上的条件生存率的乘积,来估计时刻t的生存函数S(t)和它的标准误SE(S(t))。这种方法的数学表达如下: 一句话总结下就是:此时刻的生存概率等于上已时刻的生存概率乘以此时的存活率。 Kaplan-Meier的R操作我们依然用R的自带数据集进行演示: library("survival") 这个自带数据集有肺癌患者的生存时间,我们在本例中关注三个变量,一个是time,是患者的生存天数,一个是结局status,1=censored, 2=dead,另一个是分组变量sex性别: 我们的研究问题是:不同性别的肺癌患者的生存时间有无差异? 那么我们可以首先做一个Kaplan-Meier的生存分析: fit <- survfit(Surv(time, status) ~ sex, data = lung) 结果中有展示不同性别的中位生存期及其置信区间。 那么,我们最想要的还是两组生存曲线的可视化: ggsurvplot(fit,pval = TRUE, conf.int = TRUE,surv.median.line = "hv") 从图中看:p<0.05,说明两组的中位生存期是有差异的。 在上面的曲线中,y轴是生存概率,我们还可以将y轴转化为事件比例,本例中为死亡比例: ggsurvplot(fit,conf.int = TRUE,fun = "event",pval = TRUE) 也可以看到两组随时间变化的死亡比例是有显著差异的,接下来写写不同生存曲线比较的检验: 生存曲线的比较上面的例子中,我们分男女做了两个生存曲线,这两个生存曲线有没有统计学差异呢? 这时候就要用到log-rank test了: surv_diff <- survdiff(Surv(time, status) ~ sex, data = lung) 通过比较,我们发现两个生存曲线确实存在显著差异,此时我们就可以说性别为2的病人确实比性别为1的病人活得久点。 小结今天给大家写了简单的生存分析,今天的例子中并没有纳入协变量,之后给大家写比例风险模型。 |
|