分享

生存分析数据中的Buckley-James Multiple Regression Model

 生物_医药_科研 2019-02-23

一、模型简介

目前,生存分析领域,最常用的是Cox比例风险回归模型,该模型具有良好的特性,不仅可以分析各种自变量对生存时间的影响,而且对基准风险分布不作任何要求(半参数模型)。Cox模型使用时要满足一定的条件,其中最为大家熟知的“PH比例风险”假定,专业点讲,就是在时间t,协变量x作用下,个性风险率相对于基准风险率之比与时间无关,不随时间t的变化而变化;通俗点说,就是生存曲线要平行不能交叉。如果违反“PH假定”Cox模型不再适用,需要其他方法替代。本文介绍一种替代模型Buckley-James模型。该模型是由Buckley James1979年提出,该模型具有线性回归模型的特点,其参数估计方法是最小二乘法的一种校正,通用引用一个伪随机变量,使其满足一般的正则条件下,能够用于具有右删失数据的分析。而且,在1993,Hillis等人证明Buckly-James模型的参数估计要比其他模型的参数估计优越。

二、 模型适用条件

因BJ模型是线性回归模型的改进,故其需满足线性回归模型的适用条件(1)线性;

(2)方差齐。

检验是否满足上述条件的方法:

(1)修正残差图判定法;

(2)样条函数判定法。

三、模型原理

该模型假定生存时间T,或者其简单变换与协变量x之间呈线性关系。即:

 

由于生存时间存在右删失,所以数据中只能观测到删失时间,因此上式不再适用,通常的最小二乘也无法估计出模型的参数,为此,Buckly-James引入了一个伪随机变量:

 

这里是指示变量。同时也证明了如下线性关系:

 

所以BJ模型实际是一种将因变量Y改进后(考虑删失情况)的线性回归模型,该模型对生存时间分布不作任何要求。线性回归系数估计用到了高斯的最小二乘法,BJ模型系数估计用到的是校正后的最小二乘法。

有研究显示,连续性自变量对BJ模型估计值的影响可以忽略,而当自变量为分类变量时,BJ估计值的偏倚是比较大的。提示在实际应用时,尤其是单个自变量的情形下,要谨慎考虑分类自变量估计值的准确性,为此可以考虑用Bootstrap法估计参数值并得到可信区间。

四、模型应用案例基于R软件

这里以一份口咽癌数据为例:

 数据包含195条观测13个变量,涉及研究对象性别,年龄、分期等临床指标和患者生存时间和生存状态;

(1)先读入并打包数据

(2)建立BJ模型:

BJ模型的建立和cox模型非常像,也会报告模型各指标系数及是否有意义的变量。

与线性回归分析一样,对建立的模型做模型是否有意义的假设检验,假设检验会给出ANOVA分析结果,从上述的结果可见模型中只有T分期有意义,年龄和性别无意义。

做模型的summary(f1),可以发现年龄AGE、T分期和生存时间成反比

利用BJ模型结果做出的Nomogram结果与Summary表型出一致的结果。

五、总结

BJ模型作为回归模型的一种,自然也有回归模型的基本功能,如因素筛选、预测等等。

在应用时除了要求线性和方程齐(本篇未展示检验过程)要求外,还需考虑一定的删失比。

与COX模型相比,选择方案如下:

当数据不满足COX回归的PH假定(生存曲线相交),BJ模型是Cox模型很好的补充。




本公众号部分精彩历史文章

04:如何在R软件中求一致性指数(Harrell'concordance index:C-index)?

05:Nomogram 绘制原理及R&SAS实现.

06  :Lasso方法简要介绍及其在回归分析中的应用

07  : 最优模型选择中的交叉验证(Cross validation)方法

08  : 用R语言进行分位数回归(Quantile Regression)

09  : 样本数据中异常值(Outliers)检测方法及SPSS & R实现

10  : 原始数据中几类缺失值(Missing Data)的SPSS及R处理方法

11  :  [Survival analysis] Kaplan-Meier法之SPSS实现

12  :  [Survival analysis] COX比例风险回归模型在SPSS中的实现

13  :  用R绘制地图:以疾病流行趋势为例

14  :  数据挖掘方法:聚类分析简要介绍 及SPSS&R实现

15  :  医学研究中的Logistic回归分析及R实现

16  :  常用的非参数检验(Nonparametric Tests)总结

17  :  高中生都能看懂的最小二乘法原理

18  :  R语言中可实现的常用统计假设检验总结(侧重时间序列)

19  :  如何根据样本例数、均数、标准差进行T-Test和ANOVA

20  :  统计学中自由度的理解和应用

21  :  ROC和AUC介绍以及如何计算AUC

22  :  支持向量机SVM介绍及R实现

23  :  SPSS如何做主成分分析?

24  : Bootstrap再抽样方法简介

25  :  定量测量结果的一致性评价及 Bland-Altman 法的应用 

26  :  使用R绘制热图及网络图  

27  :  几种常用的双坐标轴图形绘制 

28  :  遗失的艺术—诺谟图(Nomogram) 

29  :  Nomogram 绘制原理及R&SAS实现(二) 

30  :  WOE:信用评分卡模型中的变量离散化方法 

31  :  结构方程模型(SEM)简介及教程下载  

32  :  重复测量的多因素方差分析SPSS实现操作过程 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多