一晃晃,又是一周过去了。作为一个临床住院医,每天起早摸黑,自以为自己很努力,可一到关键时刻,却拿不出成果出来,就像大BOSS每次调侃我们做自我介绍时:我叫某某某,我来自哪里哪里,然后,就没有然后了…… 幸亏自己当初加入了《不写就出局-007》社群,好歹每周还能写一篇鸡汤文章,安慰自己这周我还是有点小成果。 也许有人会问,不写就出局,出局就出局呗,为什么拼命在那里挣扎? 我的回答是这样的: 因为我还是有信仰的,信仰我们007这里的人,能坚持到最后的,都不是一般人。不知道写到第七年,我能不能在南极与战友们相互击掌拥抱,但这就是我的梦想,这几年,我都会为此而努力奋斗。 好了,言归正传,开始分享这周的学习收获。 本周主要收获是关于数据处理部分,我将实操生存分析(Kaplan-Meier生存曲线)、Cox比例风险回归模型以及Logistic回归模型。 首先需要下载SPSS软件,百度或者丁香园一堆链接,无脑下载安装就可以了。不过我貌似花了一个多小时给我的MBP成功安装,试了23、25版本安装不起来,只有24才可以。 安装好了以后,接下来我会举例统计学最常见的三种统计方法。 实操一:生存分析 首先我们介绍下什么叫生存分析(survival analysis) 生存分析:是将事件的结果和出现这一结果所经历的时间结合起来一类统计分析方法。不仅考虑事件是否出现,而且也考虑事件出现的时间长短。 举例:肺癌肿瘤大小与患者生存时间的关系。 1.打开SPSS,导入EXCEL表格,依次:分析-生存分析-Kaplan-Meier; 2.将“survivalmonths”及“tumordeath”分别导入中间的框里,因子就是T_stage;并把比较因子和选项里面能勾的都勾上。 3.生成Kaplan-Meier生存曲线,如下。 从上图我们可以看出,随着肿瘤大小越大,患者预后越差。(备注:这是下载的2014年的肺癌数据,随访时间只统计到术后25个月。) 实操二:Cox比例风险回归模型 前面介绍的是Kaplan-Meier法可以进行单个分组变量的生存分析。那么,为了同时分析多个变量对生存时间和生存结局的影响,则需要采用多因素生存分析方法,其中一个主要的方法就是Cox比例风险回归模型。 举例:患者种族、病理分级、TNM分期与患者生存时间的关系。 1.依次:分析-生存分析-Cox回归; 2.将“survivalmonths”及“tumordeath”分别导入中间的框里,将“grade”、“race”、“Tstage”、“Nstage”、“Mstage”全部纳入协变量;并将协变量里的多分类变量进行分类排序; 3.结果如下图。 上表就是多因素Cox比例风险回归模型结果,举例解读,T3的患者的死亡风险比T1的患者死亡风险高30%。 ![]() ![]() 实操三:二元Logistic回归 Logistic回归,它是概率型非线性回归,是研究二分类(可扩展到多分类)观察结果与一些影响因素关系的一种多变量分析方法。 举例:肺癌患者种族、病理分级、性别等与肿瘤远处转移(Mstage)的关系。 1.依次:分析-回归-二元Logistic回归; 2.将二分类变量“Mstage”纳入因变量,再将将“gender”、“grade”、“race”、“Tstage”全部纳入协变量,并将协变量里的多分类变量进行分类排序; 3.结果如下图。 上表就是二元Logistic回归模型结果,举例解读,肿瘤大小影响肿瘤远处转移,且T3的患者比T1的患者远处转移的风险高14.9倍。 补充鉴别: 多因素Logistic回归:协变量大于等于2个,因变量是二分类或者多分类。 多元Logistic回归:因变量是多分类变量,协变量任意。 这就是本周关于数据分析的学习收获,对于SPSS的学习,我认为不仅仅是看视频操作过程,同等重要的是理解操作背后的统计学原理,这方面我还需要进一步学习。 毒鸡汤:再强大的对手,也敌不过你无止尽的坚持;永远不要逃避问题,因为时间不会给弱者任何回报。 END |
|