【原】这篇《新英格兰医学杂志》临床试验论文，通篇没有P值，它是怎么做到的？

妙趣横生统计学 2022-11-23 发布于江苏

展开全文

《新英格兰医学杂志》（NEJM）作为宇宙第一医学期刊，它每周会全文翻译一篇专著。

在其小程序《NEJM医学前沿》，大家可以点击查看学习翻译全文。

NEJM杂志的统计学，篇篇堪称典范，我想很多人想学习，但是英文全文晦涩难懂。但中文译稿就不同了，对于想学习那些文章研究设计与统计学方法，又苦于英文理解的朋友来说，简直不能再好的福利！

但统计学还是不好理解（哪怕是中文），所以我想来一个沉浸式学习的模式：论文全文阅读+统计学解读。

沉浸式学习

论文全文阅读：10分钟

统计学解读学习：10分钟

诸位先查看其官网小程序的翻译全文，再来看我对他统计学方法的解读。

可能您一开始不太懂，但是如果你能够坚持半年，我想你就懂了它的套路。

本周分享的是一篇国外学者重磅尿路感染临床试验论文！

通篇没有P值，那么是怎么证明疗效的呢？

2022年4月7日，《新英格兰医学杂志》发布一项3期、国际性、双盲、双模拟试验研究：Oral Tebipenem Pivoxil Hydrobromide in Complicated Urinary Tract Infection，即口服氢溴酸替 vs 培南酯治疗复杂性尿路感染。

请大家不妨忽略学科内容，聚焦于研究设计与统计方法。

摘要与主要结果

一、摘要

背景

我们需要一种对多重耐药的尿路革兰阴性致病菌有效的口服抗生素。氢溴酸替比培南酯（tebipenem pivoxil hydrobromide）是一种可以口服的碳青霉烯类药物，对尿路致病性肠杆菌（包括产广谱β内酰胺酶菌株和氟喹诺酮耐药菌株）具有活性。

方法

在这项3期、国际性、双盲、双模拟试验中，在复杂性尿路感染或急性肾盂肾炎患者中，与静脉给予厄他培南相比，我们评估了口服氢溴酸替比培南酯的疗效和安全性。我们以1∶1的比例将患者随机分组，分别接受氢溴酸替比培南酯（剂量为每8小时600 mg）口服给药或者厄他培南（剂量为每24小时1 g）静脉给药7～10日（或者在菌血症患者中长达14日）。主要疗效终点是在微生物学意向治疗人群中，在治愈验证（test-of-cure）访视时（第19日，在±2日的时间窗口内）的总应答（由临床治愈和良好的微生物应答构成的复合终点）。非劣效性界值为12.5%。

结果

本试验共纳入1,372例住院成人患者；868例患者（63.3%）被纳入微生物学意向治疗人群（其中50.8%患有复杂性尿路感染，49.2%患有肾盂肾炎）。在氢溴酸替比培南酯组449例患者中的264例（58.8%）和厄他培南组419例患者中的258例（61.6%）中，观察到了总应答（加权差异，－3.3个百分点；95% CI，－9.7～3.2）。在微生物学意向治疗人群中，93.1%的氢溴酸替比培南酯组患者和93.6%的厄他培南组患者在治愈验证访视时观察到了临床治愈（加权差异，－0.6个百分点；95% CI，－4.0～2.8）；大多数在治愈验证访视时微生物学应答失败的患者为无症状的复发性菌尿患者。次要分析和亚组分析结果支持主要分析的结果。氢溴酸替比培南酯组25.7%的患者和厄他培南组25.6%的患者观察到了不良事件；最常见的不良事件是轻度腹泻和头痛。

结论

当用于治疗复杂性尿路感染和急性肾盂肾炎时，口服氢溴酸替比培南酯不劣于静脉输注厄他培南，并且具有类似的安全性。

二、研究结果

1. 试验人群：2019年6月至2020年5月，共计1,372例患者接受了随机分组（意向治疗人群），并接受了至少1剂试验药物（安全性人群），868例患者（63.3%）被纳入微生物学意向治疗人群（图1和图S2）。在氢溴酸替比培南酯组和厄他培南组中，对分配的治疗方案的依从率（依从定义为接受100%的计划试验剂量）分别为99.6%和99.1%。

2.基线情况：基线时，各治疗组患者的人口统计学和临床特征平衡（表1和表S1）。患者平均年龄为58.1岁；46.1%的患者≥65岁。在微生物学意向治疗人群中（868例患者（63.3%）），纳入时，50.8%的患者患有复杂性尿路感染，49.2%患有急性肾盂肾炎。共计11.5%的患者在基线时患有菌血症，19.7%符合改良全身炎症反应综合征（SIRS）的标准；两种情况都表明病情较严重。

3. 疗效分析

主要结局分析：在主要终点治愈验证访视时的总应答方面，氢溴酸替比培南酯口服给药不劣于厄他培南静脉给药（分别为58.8%和61.6%的患者；率差-3.3%；95% CI，－9.7～3.2）（表2）。

次要分析：在氢溴酸替比培南酯组和厄他培南组中，治疗结束访视时的总应答率分别为97.3%和94.5%。在微生物学意向治疗人群中，93.1%的氢溴酸替比培南酯组患者和93.6%的厄他培南组患者在治愈验证访视时观察到了临床治愈（加权差异，－0.6个百分点；95% CI，－4.0～2.8）；大多数在治愈验证访视时微生物学应答失败的患者为无症状的复发性菌尿患者。

4. 亚组分析：

在所有亚组中，根据基线特征，治愈验证访视时的总应答的预设分析结果与主要分析结果一致（图2）。在所有病例中，治疗差异的95% CI跨过了0，与总体疗效重叠，包括疾病类型、肌酐清除类型和疾病严重程度的差异。次要分析和亚组分析结果支持主要分析的结果。

结论：在本试验中，对于复杂性尿路感染或急性肾盂肾炎患者的治疗，氢溴酸替比培南酯不劣于静脉给药的厄他培南。在各试验人群和子人群、感染类型和尿路致病菌之间，结果一致。

设计与统计学方法

一、研究设计

这是一项3期、随机、双盲、双模拟、非劣效性试验。我们从PRICOS原则展开细看：

S: study 3期、随机、双盲、双模拟、非劣效性试验。

郑老师：注意注意！这是非劣效性试验

P：patient 年龄≥18岁，被诊断为复杂性尿路感染或急性肾盂肾炎的患者。

R: randomization 以1∶1的比例将符合条件的患者随机分组。随机化利用计算机产生的交互应答技术自动化进行，并根据基线诊断（复杂性尿路感染 vs. 急性肾盂肾炎）和年龄（＜65岁 vs. ≥65岁）分层。申办方、研究者和负责治疗给药和数据收集的试验人员不知晓试验分组。

郑老师：本篇文章第一个统计关键点：随机化，随机化策略不同影响后续统计学方法。包括随机分为几组、是什么随机化？本文应该是分层随机化，然后我们后面会发现分层因素在统计分析中扮演着重要角色。

I: intervention 口服氢溴酸替比培南酯（剂量为600 mg，2片300 mg的药片）每8小时1次+模拟厄他培南输入每24小时1次。

C: control 厄他培南（剂量为1 g）每24小时1次（每次在30分钟期间静脉给药）+模拟口服氢溴酸替比培南酯药片每8小时1次。

两组接受治疗7～10日（或者在菌血症患者中，长达14日）（补充附录图S1）。中度肾功能不全（基线肌酐清除率，＞30～≤50 mL/min）患者接受300 mg氢溴酸替比培南酯或安慰剂，每8小时1次；厄他培南无需调整剂量。

O: outcome 主要结局是治愈验证访视时（第19日，±2日内）微生物学意向治疗人群中的总应答（由临床治愈和微生物学应答构成的复合终点）。

关键次要终点包括微生物学可评估人群中治愈验证访视时的总应答；微生物学意向治疗人群和微生物学可评估人群中治疗结束访视时和后期随访时（第25日，±2日时间窗口内）的总应答；微生物学意向治疗人群和微生物学可评估人群中治疗结束访视、治愈验证访视和后期随访时的临床治愈、至症状减轻的时间和各患者和各致病菌的微生物学应答（根据在中心实验室评估的微生物学数据）。

郑老师：这是另外一个非常非常重要的设计要点，结局指标的类型，定量还是定性；主要结局是一个还是多个？本文主要结局是二分类结局，统计描述用率来进行，差异性也主要比较率的差异性。

S: 3期、随机、双盲、双模拟、非劣效性试验。

二、样本量计算

我们计算得出，纳入约1,200例患者（最多1,450例患者，根据主要分析人群中纳入的可评估患者数量而定）将为本试验提供至少90%的统计学功效，在0.025的单侧显著性水平，在10%的非劣效性界值评估主要终点。方案中规定，在治愈验证访视时有70%的患者的应答数据可用后，一个数据评估委员会对样本量进行了盲化再次评估，以确认最初的样本量估计值是足够的，或者建议增加样本量，以确保有足够的统计学功效可测定主要终点。数据评估委员会建议纳入最多1,450例患者（方案允许的最多患者）。然而，由于2019冠状病毒病大流行及其所导致的患者纳入困难，以及对试验数据完整性、数据可用性及患者和工作人员安全性的影响，申办方与FDA商议后，在数据库锁定之前将非劣效性界值修订为12.5%。

郑老师：这段样本量计算公式给出了相应的参数，这篇文章告诉我们，样本量其实在试验过程中可以微调，不过操作层面比较复杂，我们一般情况下不要轻易去动。2组率的比较。你也可以试着去复现下。非劣效性样本量计算公式如下。

三、统计方法

1. 主要分析是微生物学意向治疗人群中治愈验证访视时总应答的比较。

郑老师：一般统计学方法篇，首先明确的便是分析的数据集是什么？常见的有意向性治疗集、全分析集、符合方案集，一般疗效评价意向性治疗集和全分析集居多。此外，安全性分析还有安全性分析集。该文是意向性治疗分析集，包括所有随机化分组的对象。

2.治疗组间加权差异的95%CI利用Cochran-Mantel-Haenszel加权Miettinen和Nurminen方法计算（根据知情同意时的年龄和基线诊断分层）。

郑老师：这段是疗效评价的主要方法：采用CMH方法进行分层分析。分层因素恰恰是分层随机化的因素，你懂了吗？采用加权Miettinen和Nurminen方法计算率差即95%CI

4.虽然统计学功效不足以评估非劣效性，临床应答和微生物学应答次要终点的分析使用与主要终点相同的方法进行。我们进行了次要分析和探索性分析，以评估与主要终点结论的一致性。

郑老师：这段文字是次要结局指标分析。一般次要结局都是和主要结局相关的终点，结果可进一步证实处理因素的疗效。

5.缺失数据被分类为应答情况不确定，在微生物学意向治疗人群的分析中，被计为治疗失败。

郑老师：缺失数据如何填补？有很多方法，该文的方法是把缺失认定为无效。

差不多就是这个意思~

最后：闲来郑语

关键分析：为什么临床3期论文可不用P值呢？

中国的医学研究者一般会认为，一份文章能否发表，非常重要的评价指标就是P值。P<0.05结果阳性，表明临床研究是成功的，P>0.05，想死的心都有了。然而，目前国际上越来越多的杂志、统计领域的学者不再看重P值，甚至宣称要判定P值死刑。我这里就从以下几点论述本文P值为何缺失。

RCT研究表1（Table 1）结果无须报告P值

通常情况下，临床试验论文首先要做的工作是进行基线的特征的描述，并进行组间的均衡性比较，看分组是否均衡（计算P值），这一结反映的在论文的第一张表格中（Table 1）。但是，现在越来越多的杂志和学者认为，随机对照试验（RCT）论文，表1只要进行统计描述就行了，无须进行均衡性比较，无须用P值来反映基线是否可比。

为什么？有以下2点理由：第一，规范的随机对照试验，它就应该被认为是均衡可比的，采用意向性分析前无须进一步去论证其均衡性；2）P值无法有效反映分组均衡性，因为小样本，即便是不均衡性的数据，P值也很可能>0.05，而大样本，即便是均衡性的数据，P值也很可能<0.05。

与P值相比，置信区间更为重要

P值和置信区间统计分析结果基本相同，国人一般较认可P值。P值<0.05，说明结果阳性，皆大欢喜。现在越来越多的学者认为置信区间更重要，反而P值不太重要。

本文便选择置信区间来判断结果是否阳性。在主要终点治愈验证访视时的总应答方面，氢溴酸替比培南酯口服给药不劣于厄他培南静脉给药（分别为58.8%和61.6%的患者；率差-3.3%；95% CI，－9.7～3.2）（表2）。率差置信区间在－9.7～3.2，下限高于文章设置的-12.5%，所以非劣效达成。

如何利用P值和置信区间判断非劣效性

非劣效性研究是探讨干预组是否效果不太差于对照组的研究。本文的阳性率的研究中，就是探讨率差是不是不太低。本文假定氢溴酸替比培南酯口服给药不太差于厄他培南静脉给药，非劣效界值为12.5%。这意味着，氢溴酸替比培南酯口服给药疗效较厄他培南静脉给药有效率差距在12.5%以内可以实现非劣效的目标。

这一目标，可分别通过假设检验（P值）和置信区间来论证。

假设检验（单侧）的方式：

此时，采用单侧率的比较可获得P值；P<0.025，则非劣效目标达成。

置信区间的计算更加直接明了。就是看率差的置信区间是否包括了12.5%。

上述“工字型”即为率差置信区间的上下限，（1）区间上下限包括差率0%（本文的数据），但没有包括12.5%，（2）区间上下限包括差率12.5%，（3）区间上下限不包括差率12.5%，都低于12.5%。相对12.5%的非劣效界值，其中（1）结论为非劣效，（2）为不能说明结论非劣效，阴性结果，（3）劣效结果。

由此我们便可以初步判断本文氢溴酸替比培南酯口服给药结论为非劣效。

本文为什么没有同时报告P值呢？

正常情况下，论文P值和置信区间需要同时汇报。但本文却只汇报了置信区间，原因恐怕与统计学方法有关。一般诸如t，z检验，均可开展非劣效的置信区间估计和P值的计算。但是也有诸多方法，往往只进行差异性比较和置信区间估计。比如本文采用的CMH方法（Cochran–Mantel–Haenszel analysis）。

CMH方法，又成为分层卡方分析。一般来说，两组率的比较，可以采用正态分步分布z分步法进行率的比较或者卡方检验，但是临床试验，虽然分组均衡，由于采用的是分层随机设计，往往会进一步借助CMH方法进行分层卡方检验，进一步控制潜在的混杂因素（本文是年龄和基线诊断分层）。所以诸位可以看本文的表采用了CMH调整了潜在的混杂因素。

CMH方法能够计算出P值，来探讨两组率是否有统计学差异。不足的地方在于，该P值是差异性的P值，而非非劣效检验的P值。本文CMH差异性检验的P值应该>0.05。这一结果不仅多余，而且会给读者带来误导，所以干脆不放入文中。

所以，这就造成了通篇论文没有一个P值的线性。总计其原因，便是基线数据分析无须P值，置信区间和P值地位同等重要，非劣效检验置信区间结果更直观，CMH方法P值会带来误导。