分享

生存分析(六)如何判断你的生存数据能否用cox回归——等比例风险假定判断

 钟山紫竹林 2019-08-09

前面两篇文章分别介绍了两种参数回归,可用于相应分布的生存数据。但实际中,据我所知,绝大多数人更喜欢用的是cox回归。起码在文章中,几乎99%可能大家都在用cox回归做生存数据的多因素分析。

为什么大家这么喜欢cox回归,我个人感觉主要原因是:

cox回归不用考虑生存数据的分布,拿起来就用。其实这也是所有非参数方法的优点。但我发现一个矛盾的现象:在组间比较中,大家更喜欢用t检验或方差分析等参数检验,不喜欢用非参数的秩和检验,觉得非参数不靠谱;然而在生存数据分析中,大家却喜欢用非参数的cox回归,反而参数的weibull回归等大家不喜欢用。也许,其实很多临床人员并不是喜欢或不喜欢参数或非参数本身,我想,大家选择方法的时候,可能就是基于一个原则:简单易用。

然而,尽管cox回归不用考虑生存数据分布,但有一点还是得明确,cox回归绝不是适用于所有生存数据的多因素分析。至少有一个条件,cox回归必须考虑,也必须满足,这就是:等比例风险(Porportional hazards)。

所谓等比例风险,其实简单来说很容易理解:它表示,在研究期间内,某因素对生存的影响在任何时间都是相同的,不随时间的变化而变化。如吸烟对肿瘤的影响,不管是第一年、第二年、……,对肿瘤的危险都是相同的。
其实现实中很少有因素能够完全满足这一条件,但也不用担心,统计学本身就没那么严格。其实统计学中所有的各种条件,没有一个是非常严格的。比如正态性,只要不是很偏态就可以了;方差齐性,只要两组方差差别不是很大就好了;同样这个等比例风险也是一样,只要因素的风险在不同时间差不多就行了。
然而,尽管要求相对宽松,却也必须验证之后才知道,否则怎么知道你的因素是否满足这一条件呢?或者换句话说,你的因素有没有违背这一条件呢?如果违背了,用cox回归就危险了。任何方法都有前提,cox回归也不例外。
那么,如何判断数据是否满足这一条件呢?实际中常见的有这几种方法:
(1)图示法
绘制某因素在不同状态下的二次对数生存曲线图(即横坐标是时间的对数,纵坐标是生存函数的对数的对数),如果生存曲线大致平行,表明等比例风险成立,否则提示等比例不成立。如下图中两条曲线交叉,提示可能不满足等比例风险假定。

(2)交互作用判断法
在模型中增加该变量与时间的交互作用项。如果交互作用项有统计学意义,则表明该变量在不同时间的作用不同,也就是说不满足等比例风险假设。如下表中tvc(time varying covariates)中的treat有统计学意义,说明不满足等比例风险假定。

(3)残差法
绘制Schoenfeld残差与时间t的关系图,如果Schoenfeld残差与时间t无明显的变化趋势,即残差与时间t无关,则提示符合等比例风险假设。如下图中残差似乎有随着时间降低的趋势,提示可能不满足等比例风险假定。

(4)模拟法
SAS软件还专门提供了一种基于模拟判断的方法,其大致意思是说,模拟出一堆正常如果满足应该是什么样子的曲线,然后看看实际曲线跟模拟的差异大不大。如果差的太大,说明可能不满足。
如下图,实际曲线(粗线)距离模拟曲线(细线)距离有点远,所以可能不满足等比例风险假定。

这几种方法除了最后一种是SAS软件特有提供的,其它三种方法在所有软件中都可以轻松实现。
所以,建议大家以后再做cox回归的时候,先简单判断一下,是否满足应用条件。cox回归并不是想用就用,尽管国内很多文章其实并不考虑这些,然而,对于好的研究,还是需要考虑的。比如下面这个文章,这是发表在Lancet的一篇文章,大家仔细看一下,其实就提到了,比例风险假定是满足的,而且是采用二次对数生存曲线法来验证的。说明了文章的严谨性,其实这些都不难,为什么我们不能也做一下呢?

其实很多方法都是如此,并不是很难,我们其实完全可以通过软件实现,如果能够在文章中体现,还能说明我们的严谨,增加文章被接受的几率,何乐而不为呢?

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多