临床研究统计分析思路与统计图表概述

生物_医药_科研 2019-10-13

展开全文

近年来，无论是从国家层面的临床研究机构体系建设，还是从学术层面的临床研究经验交流来看，临床研究都得到了前所未有的重视，但同时也还存在着一些短板和不足[1, 2]，比如，专职临床研究人员的匮乏、常用临床研究方法和技能的欠缺、尤其是统计分析思路与方法的欠缺。依托国家神经系统疾病临床医学研究中心的青年科研基金课题，作者曾对临床研究相关的统计分析方法及统计图表做过系列梳理。因此，本文将围绕临床研究统计分析思路及统计图表做一概要介绍，以期为广大的临床研究同行们提供一些有益的借鉴。

诚然，临床研究设计类型不同，其统计分析思路与方法也会有所不同，因此

也有诸如CONSORT、STROBE、TREND以及STARD等适用于不同研究类型的报告规范[3-6]。不过多数临床研究项目的统计分析思路基本上可归纳为一个通用的策略：（1）描述基线信息；（2）估计效应大小；（3）补充敏感性分析。

1. 描述基线信息

临床研究论文的结果部分首先需要呈现的就是研究人群的基本信息。例如，多少人参与筛选？经过入选排除标准筛选后，多少人纳入研究？经过数据清理后，多少人纳入统计分析？研究人群基线特征信息如何？纳入统计分析的人群与排除的人群特征差异如何? 等等诸如此类信息均可在研究结果的第一部分交代清楚。对于基线信息的描述，常用的工具无非两个:研究流程图和基线信息表。由于这些图表常最先出现在论文结果中，因此往往被命名为“图1”、“表1”。

图1是临床研究中“图1”的一个最为简易的通用模板。“图1”将提供从最初筛选到最终纳入统计分析各阶段人数。当然，不同的研究设计类型在具体的阶段和流程上都会有所不同：对于临床试验，会从筛选、随机化、随访、方案遵循情况等进行人群的剔除，例如评估强化血糖控制对二型糖尿病病人血管结局的ADVANCE随机对照研究[7],强化降压对心血管病结局的SPRINT研究[8]等；对于抽样调查研究，则会从各阶段的抽样人数、应答情况等方面进行描述，例如PURE研究里，对心血管病病人的健康生活方式的调查研究[9]；对于基于已有登记注册库的研究，则会从研究的亚人群、变量的缺失情况等方面进行筛选，例如基于GWTG数据库的ST段抬高的心梗病人的急救医疗服务使用现况的研究[10];而Meta分析中，“图1”则是对检索的文献进行剔除，Meta分析的报告规范PRISMA甚至还提供了相应的流程模板[11]。如果研究人群的筛选流程比较简单，也可直接在正文的方法学或者结果部分用文字直接描述，如针对心源性急性脑缺血病人抗凝效果和时机的RAF研究[12]。相反，如果文章中图表过多，为了节约版面，也可将此图置于附件图中，如NEJM上诸如CHANCE、DAWN等一些著名的随机对照研究[13, 14]。

图1. 临床研究常用流程图模板

表1给出了临床研究中“表1”的一个较为通用的模板。“表1”中，通常将各组以及组间比较的P值作为单独的列列出，而将需要描述的重要变量作为行条目列出。至于分组变量、描述变量、统计量和P值的选择，则需依据研究类型，研究目的以及数据属性做综合的考量。“表1”中的列，除了各分组和P值外，有时还会增加一个合并的总体列[15]，或者是需要展示的其它统计量，比如标化的组间差值[10]。弃用P值，转用标化的组间差值，常见于大样本的观察性研究[16, 17]。P值评价组间差异，有两个缺陷：（1）P值只给出定性的结论，无法给量化差异大小；（2）大样本时，P值过于敏感[18]，假阳性过高。因此，在大样本的随机对照研究中[7, 13, 14]，常常仅报告描述性统计量，不报告P值。“表1”中描述的变量常包含社会人口学特征、疾病史、实验室检查指标以及临床特征等方面的内容。当所要描述的变量过多时，可按一定的逻辑层次进行展示，甚至拆分成多个表格[19]。若不分组描述，可将所有研究人群作为整体直接描述，如GWTG的台湾登记研究[20]。

2. 估计效应大小

通常而言，一篇临床研究论文旨在回答某干预措施的效果如何？某暴露因素与结局的关联强度如何? 此即效应估计。估计效应指标时，结局变量的类型不同，其效应评价指标也会不同。例如，连续性结局变量的效应评价指标通常为均数差；分类结局变量的效应指标略微复杂，依据研究类型，常用的指标有率差、危险度比（risk ratio, RR）以及优势比（odds ratio, OR）；生存结局数据的效应评价指标为生存率和风险比（hazard ratio, HR）。无论采用哪种效应评价指标，通常都需要进行两类的效应估计:(1)粗略的效应估计；（2）校正的效应估计。粗略的效应估计是指未经协变量校正的，单变量分析结果；而校正的效应估计则是在多因素回归模型中校正潜在的混杂变量后的效应估计。在观察性研究中，由于缺乏随机分配过程，组间可能存在大量不均衡的混杂因素，因此，必须报告多因素校正的效应估计。

效应估计的统计图形可依据不同的效应指标而做不同的选择，常用的效应估计统计图形如图2所示。具体而言，连续变量可以用带误差限的条图（如评估阿利吉伦与氨氯地平片降压的临床试验中的Figure 3[21]）、散点图与箱线图或者类似图形的组合图进行展示（如在经皮冠状动脉介入术后具有氯毗格雷高血小板反应性的急性冠脉综合征患者中比较替格瑞洛和普拉格雷的血小板反应性研究的Figure 3[22]）；分类变量，若效应指标是率，则可将率做成条图(如阿利吉伦与氨氯地平片降压的临床试验中的Figure 5[21])，若效应指标是OR,RR或者HR，则可采用带置信区间的点图，横向或是纵向均有大量研究实例（如吸烟、戒烟对体重及肥胖的影响研究，以及院外心脏骤停的发病及生存情况的时间变化趋势研究中的Figure 2[23, 24]）；生存数据最适合的图形当然是展示整个研究时期内生存经历的Kaplan-Meier生存曲线，这在此前提及的随机对照研究中已很常见[7, 14]。

图 2. 临床研究常用效应估计统计图形模板

A:带误差棒的条图; B:箱线图；C:散点图+均数及其变异；

D:点图；E:Kaplan-Meier曲线；F:累积事件曲线；G:森林图

效应估计的表格可以用一个较为通用的模板展示，具体如表2所示。此表对于连续变量、分类变量以及生存数据均适用，只需依据变量类型替换相应的效应指标即可。例如，连续性结局变量的均数差（如急性缺血性卒中病人强化降压的CATIS研究中的Table 2[25]），分类结局变量的率差（如评估安定类药物是否增加老年痴呆患者死亡率研究的Table 2[26]）、OR（如急性缺血卒中病人的动脉内治疗的随机对照MR CLEAN研究的Table 2[27]）或者RR（如SWIFT PRIME研究[28]中比较卒中病人静脉t-PA溶栓后支架取栓与单纯静脉t-PA溶栓的Table 2），以及生存数据的HR（此前提及的PLATO[29]中的Table 3和CHANCE研究[14]里的Table 2）。

除了单纯的统计图形和表格，也可将统计图表进行结合，此即用“森林图”展示研究结果。严格而言，森林图是一种以无效线（横坐标刻度为0或1）为中心，结合了数字、文本、图形，同时展示各研究以及汇总研究结果的综合图形。不过在单个研究中，森林图里并无汇总结果，展示的是各终点指标或者各暴露因素相应的效应估计值。具体实例如FREEDOM[30], CHANCE[14]等研究。

3. 补充敏感性分析

一般而言，一篇临床研究文章在报告完基线信息和效应估计后，基本已是完整的分析结果。不过很多情况下，研究者们通常还会进行“敏感性分析”，以获得更为稳健的结论。所谓“敏感性”是指当分析方法、统计模型、变量定义以及研究假定发生变化时，研究结果和结论的稳健性[31, 32]。当敏感性分析的结论与主要分析结论一致时，可提升研究结论的可信度，但若不一致，则需进行进一步的讨论，并给出合理的解释。敏感性分析适用的场景非常广泛，从数据的缺失值、离群值的不同处理策略，研究结局的不同定义，到不同的统计模型，以及相同的统计模型里的不同层次的协变量校正，研究人群的划分，亚组分析等等均属于敏感性分析的范畴[32]。

敏感性分析的结果没有普遍统一的展现形式，基本上是变换不同的条件重复效应估计的步骤。例如在CHANCE研究1年随访结果中，作者便依据不同的缺失值填补策略采用了三个统计模型，并依据不同亚组人群的划分，分别估计氯毗格雷+阿司匹林对比单用阿司匹林预防卒中复发的效果[33]。当然，有时也会使用森林图来进行展示，尤其是进行亚组分析的时候，森林图是最为普遍的展现方式，比如此前提及的ADVANCE研究[7]中的Figure 5以及CHANCE研究中[14]的Figure 2。

本文是临床研究统计分析思路与统计图表系列文章的首篇，对临床研究统计分析思路与统计图表做了一个概述。正如开篇所言，不同的临床研究设计类型，其统计分析思路与方法会有所不同。本文并非企图提供一个完全普适的临床研究统计分析策略，而是旨在提供一种在通常情况下均可借鉴的、典型的统计分析思路，并尝试通过模板化的统计图表来体现、实现此思路。

目前，传统的卫生/生物统计教学中，统计方法与临床研实例的衔接不够，各统计方法间欠贯通，比较容易局限于“一招一式”教学模式中，难以形成一套简约、实用的“组合拳法”。因此，笔者希望借此系列文章，贯通各统计方法，并将统计方法与临床研究实例无缝对接。本系列后续文章将对基线信息的描述、效应大小的估计以及敏感性分析各部分及其涉及的统计分析方法进行详细的介绍。

参考文献：

[1] 新华社. 我国已组建32家国家临床医学研究中心 [J/OL] 2017, http://www.gov.cn/xinwen/2017-04/28/content_5189584.htm.

[2] 陈国强. 医学赶超一流，岂能忽视临床研究 [J/OL] 2016, http://opinion.people.com.cn/n1/2016/0829/c1003-28671619.html.

[3] Des Jarlais D C, Lyles C, Crepaz N. Improving the reporting quality of nonrandomized evaluations of behavioral and public health interventions: the TREND statement [J]. Am J Public Health, 2004, 94(3): 361-6.

...

[33] Wang Y, Pan Y, Zhao X, et al. Clopidogrel With Aspirin in Acute Minor Stroke or Transient Ischemic Attack (CHANCE) Trial: One-Year Outcomes [J]. Circulation, 2015, 132(1): 40-6.