分享

队列研究的基本统计分析策略

 妙趣横生统计学 2020-07-07
第24讲 观察性研究统计策略(9):
队列研究的基本统计分析策略

SPSS系列教程已经分别介绍了现况调查的统计分析策略(现况调查的基本统计分析策略)、病例对照研究的统计分析策略(病例对照研究的基本统计分析策略),本文将着重介绍观察性研究另外一种类型--队列研究的统计分析策略。

队列研究(Cohort study) 又称前瞻性研究(Prospective study)或随访研究(Follow-up study),是对研究因素不同暴露水平的对象进行追踪观察,确定其疾病发生(康复、死亡、生存等)情况, 从而分析暴露因素与阳性事件(疾病发生、临床效果)之间的因果联系。

队列研究的暴露因素,可以指的是队列研究对象中社会人口学特征、行为、遗传特征、所处的环境、也可以是临床治疗手段等。队列研究的暴露因素一般是分类变量,因此研究对象分为暴露水平组,形成不同的队列;队列研究暴露因素原始值也可以是定量数据,比如收缩压、饮酒量、吸烟量等,但实际操作中,也一般会将定量变量转为分类变量进行处理。比如根据人群的收缩压,分为高血压、正常组和低血压组,分别进行随访研究。

队列研究结局资料可以是分类资料(发病/未发病,有效/无效)也可以是定量资料,也可以是生存结局(带有结局的时间资料);结局资料可以是好结局,也可是坏结局。

很多学过《流行病学》的朋友们,可能会被教材所误导,以为队列研究的暴露因素就是疾病的发病危险因素,队列研究的结局是二分类的,这些是一种严重的错误理解。

队列研究主要用于确证性分析暴露因素与健康结局的因果关系,因此在医学因果关系论证方面具有举足轻重的地位,是循证医学的重要方法学。

队列研究的统计分析策略与步骤



1



队列研究基本分析策略

如何分析队列研究的数据?

分析队列研究数据并不太难,也就是比较不同人群(暴露组和对照组)的结局差异性。比如,高血压组和正常组,随访2年后生命质量得分的差异性。得分是定量数据,两组定量数据的比较,应采用t检验或者秩和检验。

又比如,高血压组和正常组,随访5年后脑卒中的发病率的差异性。用什么方法?两组率的比较用卡方检验!

因此,t检验、卡方、秩和、方差分析都能够用于队列研究暴露组和对照组的差异性。

不过,队列研究典型的特点是,人群分组是自然而成,暴露组人群和对照组人群往往的基本特征(一般称之为“基线”特征)是不同的。比如,高血压组很可能平均年龄较正常组大。如果随访5年后,脑中风的发病率存在着差异。这种情况下,能否说明差异是因为高血压造成的,还是因为年龄结构不同带来的呢?

高血压组和非高血压组组间分组不均衡,则不具有可比性。

没有可比性,哪能探讨因果关联性?因此,t检验、卡方、秩和、方差分析能分析人群的差异性,也只能分析人群的差异性,不能说明暴露因素与结局存在着因果关联性。

怎么办?如何更科学地分析两者的因果关系?一般的方法是采用多因素回归的方法排除其它非暴露因素(比如年龄)的干扰。另外,在医学项目中,很多时候我们希望探讨影响结局的多个因素,那么多因素回归分析显然也是最好的方法之一。

因此,队列研究不仅需要基本统计学方法,也需要高级回归方法加持。


2



队列研究基本分析步骤

队列研究基本统计分析步骤包括以下4步:

第1步,统计描述。总体描述人群的特征、分组情况、分组人数、随访时间、失访情况。

第2步,暴露组与非暴露组人群的差异性情况。一般情况下,暴露组与非暴露组在诸多研究对象的特征上都存在差异性(分组不均衡),但我们需要了解到底哪些因素分组不均衡。一般采用t检验、卡方、秩和、方差分析来探讨差异性。

这一步中,有些时候一篇论文暴露因素过多,无法一一分析暴露组与非暴露组的人群特征的差异性,转而分析阳性结局事件与阴性结局事件在人群中的差异性。这种现象也很常见。

第3步,初步分析暴露因素与结局的关联性。根据结局的特征,暴露因素与结局的关联性,一般常用的条件与方法如下:

从上表可以得知,关联性方法包括两类,一类是基础统计学方法(关联性方法1),另外一类则是单因素回归分析,如单因素线性回归、单因素Logistic回归、单因素Cox回归(关联性方法2);两类方法结果基本一致。

同时可以发现,三类不同的结局对应是三类完全不同的方法。其中,LogRank和Cox回归分析的方法,还没有获得系统的介绍(我将在今后课程进行详细阐述)。

效应值方面,OR值、RR值和HR值堪称三剑客。其中,OR值已在之前篇章中详细阐述;HR是生存分析关键效应值,它将与Cox回归同时亮相;RR值应该是医学研究最重要的指标,队列研究能够计算出RR值。本文稍后重点介绍RR值。

值得注意的是,很多时候第2步与第3步方法和表格基本相同,一般可以将两者合二为一来处理。

第4步,多因素回归探讨一个或者多个暴露因素对结局的影响。最后,主流方法是借助回归分析排除干扰,研究暴露因素的影响及及影响程度。常见的的方法如下:
同样,不同的结局有不同的回归分析方法。利用线性回归探讨定量结局的影响因素,利用logistic回归探讨2分类结局的影响因素,采用Cox回归探讨生存结局(双结局资料)。

不过,Logistic只能计算OR值,无法计算非常重要指标:队列研究还有另外两种分析分类结局的方法:Poisson回归与log-binomial回归。最近几年它们是队列研究重要的统计学方法,并且非常重要的是可以计算RR值,大家可以关注下。

队列研究与RR值


这一部分回答几个重要问题:什么是RR值?为什么它很重要,甚至比OR值更重要。


1



RR的概念与计算

RR值是医学研究最重要的效应值指标,没有之一。

RR值,全称是相对危险度(Relative Risk),也就是暴露组相对对照组,结局阳性事件发生的风险程度,用于描述暴露因素与终点结局事件关联。


它的算法是,暴露组阳性率与非暴露组阳性率率的比值。令a/m1=P1或者Pe,把a/m0=P0或者Pc,则
RR大于1,说明暴露组相比对照组容易发生阳性事件,反之则说明暴露组不容易发生阳性事件。无论大于1还是小于1,说明暴露因素与结局有关。

RR值大于1,提示暴露因素是阳性事件发生的促进因素;
RR值小于1,提示暴露因素是阳性事件发生的阻碍因素;
RR值等于1,提示暴露因素对阳性事件法无影响

RR值,是暴露组相对对照组,发生阳性事件的概率的倍数。

比如,吸烟与肺癌发病关系的队列研究。

计算RR值如下:

式中,pe为吸烟组组的发病率, po为不吸烟组的发病率。RR13.5表示吸烟者患肺癌的概率(或者风险)为不吸烟者的13.5倍,比不吸烟者高12.5倍。


2



RR值需要假设检验

RR值是统计量,是根据样本得到的数据。它必须接受假设检验,论证总体上RR值是否等于1。由于RR是是基于两个率(四格表资料)得到的效应值,假设检验采用的是卡方检验进。

SPSS软件卡方检验不仅可以计算P值,同时也可以计算RR值。例如吸烟的案例卡方检验和RR值的计算:

卡方检验结果显示,P<0.001说明暴露组和对照组肺癌发生率存在着统计学差异,也说明RR值总体上不等于1。


计算RR值和95%CI 结果如下:RR=13.5,95%CI: 5.41-33.41。RR值置信区间不包括1,也说明RR总体不等于1。


3



RR值为什么这么重要,比OR值还重要

医学研究中,RR值是最重要的效应指标。主要原因有2点,第一,医学研究最常见的结局指标是分类结局而非定量结局,分类结局的效应指标一般是RR值或者OR值;第二,RR值与OR相比,它能够直接反映暴露因素相对对照,提升阳性事件的发生概率的倍数。比如,RR13.5表示吸烟者患肺癌的风险为不吸烟者的13.5倍,风险提升12.5倍。这一理解无论是临床应用还是学术研究都非常容易接受。OR值,不能直接反映风险提升的倍数,它的结果与RR值相似,但不等于RR值。所以,本系列教材在介绍病例对照研究时(病例对照研究的基本统计分析策略),一再强调,OR值结果汇报不能说明风险增加的倍数,只能是大致、约等于。


因此,RR值是很多临床研究想办法求得的一个效应值


4



logistic回归只能计算OR值,怎么办?

logistic回归无法计算OR值,这不是意味着logistic回归方法就不适合队列研究。

不是的。

虽然Logistic回归分析得不到RR值,但是,第一,由于OR值和RR值非常接近,第二,OR值和RR值假设检验的结果一致,OR值具有统计学意义,则RR值也具有统计学意义,第三,Logistic方法软件操作更简单,因此我们经常使用Logistic回归计算OR来研究队列研究。

特别是:对于发病率很低的慢性病(如心脑血管疾病、恶性肿瘤等),由于P<<1,OR可作为RR的近似值估计:
所以,logistic回归常用于流行病学调查资料,当它得到某一因素的回归系数估计值后,就可得到不同水平下相对危险度的近似估计值。

案例分析


1



案例

这一篇推文,我顺手找到的是一篇英文文章,来自于《Arthritis Care & Research 》杂志,题目是:社区队列中脂肪成分和脂肪因子与足痛的关联。

该文章发表于2016年,诸位在文末“阅读原文”查看,文章写得比较全面,大家花点时间看一看,学一学。


2



统计策略

该研究是一项基于社区的队列研究,人群来自澳大利亚某个地区年龄≥50岁者,共1462人。

研究的暴露因素是脂肪有关成分的含量、脂肪因子水平,包括脂肪质量指数(FMI)或无脂肪质量指数(FFMI)以及血清脂肪因子肿瘤坏死因子(TNF)和白介素-6(IL-6)等

研究的结局是随访期间是否发生足痛:“在过去的一个月中,大多数日子里您的双脚有没有疼痛,疼痛或僵硬?足痛分为两种情况:Prevalent foot pain和Future foot pain foot pain,具体定义可以查看原文。

由于是队列研究,统计分析策略,一般就是包括本文所列的4步:统计描述、差异性、简单关联性、多因素回归分析。


3



具体分析过程与结果

研究对象基本特征描述:给出各个人群的特征,均数、率,并且提供了95%CI,诚意满满。

分组差异性比较与简单关联性
由于本研究暴露因素诸多,因此,差异性分析主要从结局出发,分析是否足痛在人群特征的差异性与关联性。之前介绍过,差异性与关联性是不同的说法,本质上是一致的。因此,作者队列研究的第2步和第3步合二为一。

作者针对不同的指标,开展不同的分析

第一,针对暴露因素,包括脂肪因子、脂肪成分,可以开展初步分析,探讨暴露因素与结局的关系。

第二,针对干扰因素(混杂因素),比如性别、BMI、Waist: hip比值、年龄,这些干扰因素是导致分组不均衡的源头,需要重点关注,要进行差异性比较。

在分析上,作者采用两种方法,第一,对于定量的暴露因素与干扰因素,采用秩和检验分析结局与各因素的关联。结果的表格如下:

针对分类的因素--导致分组不均衡的因素,作者采用单因素logistic回归分析,并计算OR值(实际上,卡方检验结果也可以,单因素logistic回归和卡方检验结果一致)。

多因素研究,探讨影响因素
作者把差异性比较和单因素logistic回归分析P<0.20者全部拿来分别针对结局Prevalent foot pain和Future foot pain foot pain开展多因素的logistic回归。

Prevalent foot pain结局方面,脂肪变量FMI和其它因素是重要影响因素。

Future foot pain foot pain结局方面脂肪变量FMI和其它因素是影响因素。

注意点


1. 病例对照研究与队列研究统计方法具有相似性
病例对照研究在统计分析策略上,主要分为统计描述、差异性比较、基本关联性比较,多因素logistic回归;队列研究,也包括统计描述、差异性比较、基本关联性比较,多因素logistic回归;两种方法第2步,第3步均可以合二为一。

最大的区别在于,回归分析方面,病例对照研究只能采用logistic回归,而队列研究可以考虑线性、logistic、COX回归、Poisson回归等,不同的结局采用不同的统计学方法。

2. 一个队列研究只能探讨一个暴露因素吗?
所有流行病学教材说,病例对照研究可以探讨同时探讨多个暴露因素,队列研究一次只探讨一个暴露因素。这往往给人很大的误解:“队列研究就是鸡肋,辛辛苦苦做了几年,我只能研究一个暴露因素?

狭义上,教材说的没有错,一个队列研究只能分析一个暴露因素;但广义上,一个真正的队列研究,往往是多个队列研究的集合。我们在建队列时,往往会同时设定多个暴露因素,同时随访得到多个结局。比如本案例的文章,设置的暴露因素就包括脂肪质量指数(FMI)或无脂肪质量指数(FFMI)以及血清脂肪因子肿瘤坏死因子(TNF)和白介素-6(IL-6)。结局也很多,该研究估计不仅只研究足痛,全身疼痛都探讨了个遍。

在发表论文时,可以建立多因素回归分析,同时分析多个暴露因素影响。不过,多则烂,重点不突出。好的文章,一般应聚焦于一两个同类型指标,最好就是聚焦于一个暴露因素开展队列论文的写作。

3.特别要注意的是,要明确队列研究对象
病例对照研究,研究对象分别是阳性事件的人和阴性事件的人。比如,研究足痛,那么风湿科足痛的患者是病例组的目标人群,其他科非足痛患者是对照组的目标人群我们从中抽取样本来进行研究。

而队列研究,研究对象分别是具有暴露的人群和不具有暴露的人群,比如暴露人群是体重指数较高者、对照组是体重指数低于24的人群。很多人怎么开展回顾性队列研究呢(研究伊始结局已经出现(足痛、非足痛))既然结局都已经出现了,那么就抽取足痛和非足痛的人凑一起,进行统计分析吧。

错在哪里?当然你抽取足痛与非足痛人群开展研究时,你的思维已经不是队列研究的思维,而是病例对照研究的思维,你的人群不是队列人群的目标人群。为什么?这是因为,当挑选痛与非足痛人群开展分析时,你已经排除了一大批人群。他们可能是失访的人群、愿接受随访的人群。实际上,这些人都是目标人群的重要组成部分。

只有从暴露因素出发,框定目标人群,选择队列样本人群,逐一随访各个体的结局(哪怕是失访,也是一个结局。这才是正确的姿势。

这是病例对照研究与队列研究最重要的区别之一。

因此,队列研究非常重要的工作是绘制研究对象流程图,指出研究伊始多少人是研究对象,根据纳排标准,真正进入随访的有多少?有多少人失访?造成的缺失人群有规模多大?

与此相对于的是,我们要考虑缺失数据的处理:只是分析有结局的对象呢?还是将缺失结局对象的信息填补后再进行分析呢?

4. RR值,并非队列研究独有
除了队列研究,另外一个研究设计类型也经常计算RR值,那便是实验性研究。

比如在之前的案例中,

吲达帕胺片治疗原发性高血压疗效,将患者随机分为两组。试验组用吲达帕胺片加辅助治疗,对照组用安慰剂加辅助治疗。试分析两组率有无统计学差异?数据详见ht.sav



实验组和对照组的有效率分别是80.77%和45.45%,两组率的比较,我们也根据RR值的计算公式,计算它RR值
本例若设定阳性事件是“,那么实验组相对对照组,RR值计算得到1.77。这意味着,吲达帕胺片这一干预措施能够促进阳性事件、即提升“有效”的发生概率达0.77倍。

所以,正如我文章先前说的,RR是医学研究最重要的指标,没有之一。它广泛用于医学研究,用于评价阳性事件发生的相对概率。

本公众号在传播统计学知识的同时,也放置了一些常用的资源来方便大家科研。所有资源全部免费下载,有兴趣的朋友可以关注下载。
1.  最全35款统计分析软件(包括最新版SPSS、Stata、Graphpad)
2.  如何让excel绘制出精美的统计图?EXCEL  插件来帮忙!
3.  最2006-2019中国卫生统计年鉴合集下载
4. 精心整理三款科研绘图软件视频教程(GraphPad, Origin,SigmaPlot )
5.  网状Meta分析怎么写?全网最全资料等你来拿
6.  如何制作与分析量表?中英文权威书籍来帮忙。
7. 流行病学与统计学完美结合:公共健康数据分析
8.  推荐几本临床研究方法的经典书籍
9. 5本经典又好看的统计科普书(PDF+MOBI)
10.样本量如何估算?双手奉上样本量计算公式大全
11.100本“临床试验与统计学方法”英文书籍大放送!
郑老师原创作品,
如果你觉得好,
点击下方“分享”吧。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多