【原】国际第一医刊《新英格兰医学杂志》

妙趣横生统计学 2022-10-11 发布于浙江

展开全文

《新英格兰医学杂志》（NEJM）作为宇宙第一医学期刊，它每周会全文翻译一篇专著。

在其小程序《NEJM医学前沿》，大家可以点击查看学习翻译全文。

NEJM医学前沿小程序

NEJM杂志的统计学，篇篇堪称典范，我想很多人想学习，但是英文全文晦涩难懂。但中文译稿就不同了，对于想学习那些文章研究设计与统计学方法，又苦于英文理解的朋友来说，简直不能再好的福利！

但统计学还是不好理解（哪怕是中文），所以我想来一个沉浸式学习的模式：论文全文阅读+统计学解读。

沉浸式学习

论文全文阅读：10分钟

统计学解读学习：10分钟

诸位先查看其官网小程序的翻译全文，再来看我对他统计学方法的解读。

可能您一开始不太懂，但是如果你能够坚持半年，我想你就懂了它的套路。

第一部分：今日试水文章

最近来自西班牙某大学的研究者们发起了一项开放标签、多中心随机对照试验，旨在研究积极液体复苏与中度液体复苏相比安全性和有效性对不同严重程度的急性胰腺炎患者液体复苏。该论文发表在9月15号出版的《New England Journal of Medicine》上，影响因子176.079

今天这篇论文，我聚焦于期中分析。

期中分析，是指正式完成临床试验前，按事先制订的分析计划，比较处理组间的有效性和安全性所作的分析。如果一个期中分析是为了决定是否终止试验而设计的，则常采用成组序贯设计。

有不少人问我，期中分析如何进行，如何中止。最近我看了一篇NEJM的论文，觉得写得还不错。

所以拿出来和各位一起分享下。

要学习本篇文章，强烈建议诸位首先点击下方卡片学习，也可以点击文末“阅读原文”点击进行学习。

请大家不妨忽略学科内容，聚焦于研究设计与统计方法。

第二部分：摘要与主要结果

一、摘要

背景

早期积极液体复苏被广泛推荐用于急性胰腺炎的治疗，但这一做法的证据有限。

方法

在18家研究中心，我们将急性胰腺炎患者随机分组，分别接受目标指导下的乳酸盐林格液积极或适度复苏。积极液体复苏包括快速输注20 mL/kg，随后给予3 mL/（kg·h）。适度液体复苏包括向血容量不足的患者快速输注10 mL/kg，对于血容量正常的患者不进行快速输注，随后对于这一组的所有患者，给予1.5 mL/（kg·h）。患者在12、24、48和72小时接受评估，液体复苏根据患者的临床状态进行调整。主要结局是住院期间中度重症或重症胰腺炎的发生。主要安全性结局是液体过多。计划样本量为744，第一次计划的期中分析在纳入248例患者后进行。

结果

共计249例患者被纳入期中分析。由于安全性结局存在组间差异，而中度重症或重症胰腺炎发生率（积极复苏组22.1%和适度复苏组17.3%；经校正的相对危险度，1.30；95%置信区间[CI]，0.78～2.18；P=0.32）无显著差异，本试验终止。积极复苏组20.5%的患者和适度复苏组6.3%的患者发生了液体过多（经校正的相对危险度，2.85；95% CI，1.36～5.94，P=0.004）。在积极复苏组和适度复苏组中，中位住院持续时间分别为6天（四分位距，4～8）和5天（四分位距，3～7）。

结论

在这项在急性胰腺炎患者中进行的随机试验中，早期积极液体复苏导致液体过多的发生率较高，并且临床结局无改善（由萨洛德卡洛斯三世研究所[Instituto de Salud CarlosⅢ]等资助，WATERFALL在ClinicalTrials.gov注册号为NCT04381169）。

二、研究结果

1. 第一次期中分析共纳入 249 名患者。由于组间安全性结果存在差异，中重度或重度胰腺炎的发生率统计学差异（积极复苏组为 22.1%，中度复苏组为 17.3%；调整后的RR值为1.30；95% CI：0.78 - 2.18；P=0.32）。

2. 20.5% 接受积极复苏的患者和 6.3% 接受中度复苏的患者出现液体超负荷（调整后RR值为2.85；95% CI：1.36 至 5.94，P=0.004）。

3.积极复苏组的中位住院时间为6天（IQR:4-8 天），中度复苏组为5天（IQR:3-7 天）。

结论：这项涉及急性胰腺炎患者的随机试验中，早期积极液体复苏导致液体超负荷的发生率更高，但临床结果没有改善。

第三部分：设计与统计学方法

一、研究设计

这是一项多中心随机对照研究，我们从PIRCOS原则展开细看：

P：在疼痛发作后不超过 24 小时到急诊科就诊且在入组前不超过 8 小时接受诊断的患者。

R: 我们使用基于计算机的中央随机化系统（REDCap，该系统集成到基于网络的电子病例报告表中），以1∶1的比例将患者随机分组，一组接受积极液体复苏（积极复苏组），另外一组接受适度液体复苏（适度复苏组）。随机分组序列对试验团队隐瞒。随机化根据研究中心、是否有SIRS和是否存在基线血容量不足进行分层16。患者和研究者知晓试验分组。

郑老师：本篇文章第一个统计关键点：随机化，随机化策略不同影响后续统计学方法。包括随机分为几组、是什么随机化？本文是分层随机化，分层因素有三个。

I:在积极复苏组中，在 2 小时内给予 20 ml/kg 体重的乳酸林格溶液丸剂，然后以 3 ml/kg/小时的速度输注。

C:在中度复苏组中，给予患者乳酸林格溶液，剂量为 1.5 ml/kg/h（在没有低血容量的患者或在 2 小时内接受 10ml/kg 的快速推注后，无需推注）低血容量患者）。

O:主要结局是住院期间中度重症或重症急性胰腺炎（根据修订版亚特兰大分类）的发生。预设的次要结局包括随机分组后和住院期间发生的器官衰竭和局部并发症。其他预先设定的次要结局包括住院时间；重症医学科（ICU）入院；在重症医学科的天数；在随机化后和住院期间使用营养支持或侵入性治疗；每个检查点14是否存在 SIRS；持续性 SIRS（在随机分组后的前 72 小时内持续 >48 小时）；48 小时和 72 小时血液中的 C 反应蛋白水平；死亡；死亡、持续性器官衰竭（持续 >48 小时）或感染性坏死性胰腺炎的复合结局10；入院时和每个检查点使用 PAN-PROMISE 量表测量的症状。

郑老师：这是另外一个非常非常重要的设计要点，结局指标的类型，定量还是定性；主要结局是一个还是多个？由此可以大致猜出用的统计学方法

S:多中心、开放标签、平行组、随机、对照、优效性试验

二、样本量计算

中度重症或重症急性胰腺炎的预期发生率为35% 。我们计算得出，在预期10%患者退出的情况下，744例患者的样本量（每组372例患者）将为本试验提供80%的统计学功效，在0.05的双侧显著性水平（α），检测到10个百分点的组间差异（35%与25%之间）。在纳入1/3和2/3的患者（分别为248例和496例）之后计划进行两项期中分析；因此，样本量计算考虑了使用O'Brien-Fleming消耗函数的三次序贯检验。有三项事先确定的终止规则：主要结局存在组间差异，在第一次期中分析时，双侧P值＜0.0002，或者在第二次期中分析时，双侧P值＜0.012；根据数据和安全监察委员会判定，如果有一个试验组中的害处超过另外一组的明确证据（安全性），则减慢患者纳入速度

郑老师：这段样本量计算公式给出了相应的参数。同时还提前说明了它是一个存在着期中分析的临床试验。

期中分析是要控制假阳性α值的，上面的文章明确指出采用O'Brien-Fleming消耗函数法进行α，第一次0.0002，第二次0.0012，剩下的α给最后的检验。

同时也指出了这个研究如果情况不容乐观如何处理，延迟甚至是终止（后面真的发生了这种情况）

三、统计方法

1. 意向治疗分析人群包括所有接受了随机分组的患者，试验数据按照意向治疗原则进行分析。

郑老师：一般统计学方法篇，首先明确的便是分析的数据集是什么？常见的有意向性治疗集、全分析集、符合方案集，一般疗效评价意向性治疗集和全分析集居多。此外，安全性分析还有安全性分析集。该文是意向性治疗分析集，包括所有随机化分组的对象。

2.正态性使用Shapiro-Wilk检验进行评估。分类变量报告为计数和百分比，连续变量报告为均值和标准差或中位数和四分位距

郑老师：这段是常规的统计描述方法，不再多言。

4.组间差异性分析：连续变量的差异使用t检验和Mann-Whitney U检验进行比较。分类结局使用卡方检验进行比较（必要时使用Fisher校正），表达为相对危险度和相应的95% CI。

郑老师：统计描述后是疗效评价的方法，针对不同的结局，给出了不同的方法。定量的有t检验和值和检验，定性的则是卡方检验或者Fisher法。本文主要结局，由于是分类资料，也不是复杂的方法，就是卡方检验

5.作为事后分析，针对随机化分层因子（中心、基线是否有SIRS、基线是否存在血容量不足）进行校正的Cochran-Mantel-Haenszel方法用于实现较稳健的分析，并给出了校正后的相对危险度和相应95% CI。

郑老师：很多文章都有事后分析，也就是计划外的分析，本文采用CMH分层分析来探索性地分析主要结局指标，可以认为是敏感性分析的一种。

6.对于主要疗效结局和安全性结局，双侧P值小于0.05被认为表示统计学意义。由于在检验次要结局或其他结局时，统计学分析计划未提供多重比较校正，因此这些结果报告为点估计值及其95% CI。本试验未对置信区间宽度进行多重性校正，因此置信区间不应用于推断次要结局明确的疗效。

郑老师：由于统计分析计划不包括在对次要或其他结局分析时采取多重性校正的规定，因此结果报告为具有 95% 置信区间的点估计值。置信区间的宽度尚未针对多重性进行调整，因此不应使用区间来推断次要结局的明确治疗效果。

7.缺失值采取多重插补。有缺失值的变量，该研究进行了完整病例分析，并在多重填补后进行分析（见补充附录）。

郑老师：临床试验缺失数据往往建议填补，一般是多重填补，同时也进行完整病例分析，

8.除了缺失数据多重填补、以及使用Cochran-Mantel-Haenszel方法针对随机化分层因子进行校正之外，所有结局和统计学分析是试验方案中预先设定的。

郑老师：这段文章进一步指出哪些是计划内、哪些是事后分析，其中多重填补和CMH是事后分析。优秀的RCT试验是有严谨的protocol的，一切统计学分析均严格按照protocol进行。

9.试验对疗效和安全性结局进行了预设的亚组分析，以确定基线血容量不足和SIRS的影响，因为有人提出，在有或没有这些因素的患者中，早期液体复苏策略可能有较好的疗效

郑老师：亚组分析，没啥好说的。但是有个词，叫做Prespecified，预设，指的是事先计划好的。

10.使用 SPSS 28.0 (IBM) 版、SAS 9.4 版（SAS 研究所）和 R 软件4.1.2完成全部数据分析。

最后：闲来郑语

我今儿个对期中分析多说几句。

第一，什么时候有期中分析

一般是序贯设计事后

第二，期中分析目的是什么？

两点，第一，如果目标干预效果好，可以提前结束；第二，如果目标干预效果差，而且有不良反应较高，也可以提前终止。本例就是第二种情况，早期积极液体复苏导致液体过多的发生率较高，并且临床结局无改善。没效果，还副作用更强，难道还留着过年不成？

第三，期中分析需要进行假阳性α控制

一篇论文，多次进行假设检验，都会增加假阳性概率。次要结局指标可以任之由之，但主要结局指标假阳性率一般要控制在5% 以内。

一般的办法是α再分配，比如本例预设2次期中分析，一次终末分析，三次分析，在第一次期中分析时，双侧P值＜0.0002，或者在第二次期中分析时，双侧P值＜0.012。

结果发现，第一次期中分析P=0.32，远远大于统计学意义的界值，所以数据监察委员会就决定终止了。

OK，就这样子，感谢阅读。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：妙趣横生统计学 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

妙趣横生统计学

关注对话

TA的最新馆藏

学到了！还可以联合5个公共数据库发文章，别老盯着国内的！
哈哈！奖励式的减肥更有效！这个减肥实验把文章发在JAMA杂志
这个免费的公共数据库，5.16将公布最新数据，曾发表Lancet等顶刊文章
一串代码搞定！这个R语言包可以构建修正Poisson回归模型
浙大学者一区文章(IF=15)，童年不良经历加速衰老，女性尤其明显
JAMA！浙大和哈佛学者联合发文，痴呆死亡风险直降28%，每天只需这种植物油7g？

喜欢该文的人也喜欢更多

热门阅读换一换