非劣效性试验：成败经典案例 | NEJM综述

医学abeycd 2022-08-16 发布于湖北

展开全文

非劣效性临床试验已成为评估药物、器械、生物制剂和其他疗法的主要工具，其初衷是寻找好的替代疗法，然而设计缺陷往往导致弄巧成拙。

我们曾在上月介绍非劣效性试验方法学特征和其面临挑战（参见《非劣效性试验：方法和挑战 | NEJM综述》 ），本周将以实例剖析非劣效性试验设计和注意事项。

非劣效性试验实例

疗效评估

1. ARISTOTLE、RE-LY和ROCKET AF试验

在心房颤动患者中，与安慰剂或阿司匹林相比，华法林降低了卒中风险，但出血风险增加，且需要频繁的血液检测以确保治疗效果。几种新型口服抗凝剂因为出血风险较低，不需要血液检测，因此具有更大的便利性。这些药物获得FDA批准的依据是比较口服抗凝剂与华法林预防卒中或血栓栓塞的三项大型非劣效性试验：ARISTOTLE（阿哌沙班用于减少房颤患者的卒中和其他血栓栓塞事件，Apixaban for Reduction in Stroke and Other Thromboembolic Events in Atrial Fibrillation）、RE-LY（长期抗凝治疗随机评估，Randomized Evaluation of Long-Term Anticoagulant Therapy）和ROCKET-AF（每日一次口服凝血因子Ⅹa直接抑制剂利伐沙班与维生素K拮抗剂预防房颤患者卒中和栓塞的比较，Rivaroxaban Once Daily Oral Direct Factor Xa Inhibition Compared with Vitamin K Antagonism for Prevention of Stroke and Embolism Trial in Atrial Fibrillation）。

研究者根据比较华法林与阿司匹林的既往随机试验预期卒中或全身性血栓栓塞的发生率。非劣效性试验比较了新型抗凝剂与华法林的疗效，这些试验的参与者规模为14,264～18,261人，他们被随机分配到各治疗组，以卒中或血栓栓塞的相对危险度作为主要终点，相对非劣效性界值为小于1.4。每项研究的相对危险度单侧97.5%置信区间（单侧检验）的上限介于0.95～1.11，每项研究的结果都低于预设界值，因此支持非劣效性结论。这些研究还表明这些新型抗凝剂的颅内出血发生率低，患者用药方便，因此替代华法林成为许多心房颤动患者预防卒中的一线用药。

2. PARTNER、CoreValve和SURTAVI试验

未经治疗的重度主动脉瓣狭窄与心力衰竭及死亡有一定相关性，而外科主动脉瓣置换术（SAVR）对许多患者有效。可通过导管置换，而无需切开胸骨的瓣膜带来了低创疗法。研究者首先在重度主动脉瓣狭窄患者中进行了CoreValve和PARTNER2（经导管主动脉瓣置换术2，Placement of Aortic Transcatheter Valves 2）试验。这些患者由于其他疾病和高龄而不太可能耐受（开胸）手术，在降低死亡率方面，经导管主动脉瓣置换术（TAVR）被证明优于主动脉瓣球囊成形术（一种姑息手术）（图2）。在疗效类似的情况下，低创手术是首选，故随后研究了TAVR手术在可耐受开胸手术的患者以及年轻患者中的疗效。在手术死亡风险中等（预测风险4%～8%）的患者中，PARTNER 2试验的主要复合终点（2年时死亡和致残卒中的相对危险度）的相对界值被预设为1.2。研究得到的风险比为0.89，95%置信区间上限（1.09）低于1.2，证明了非劣效性。其实，在可行股动脉TAVR的预设患者亚组中，TAVR优于手术。

类似地，在预测手术死亡率为3%～15%的患者人群中，SURTAVI（外科置换术和经导管主动脉瓣植入术，Surgical Replacement and Transcatheter Aortic Valve Implantation，）试验显示，经导管瓣膜置换术不劣于外科手术，其绝对危险度差异为7个百分点（比手术的终点预期发生率14%低7个百分点）。

图2. 经导管主动脉瓣的评估从优效性试验推进至非劣效性试验

在手术风险较低的人群中已开展了一系列试验来比较TAVR与标准治疗。灰色区域显示的是优效性研究，纳入了有手术禁忌证的患者。这些研究比较了TAVR与姑息治疗后的结局，TAVR的死亡率较低。黄色区域显示的是非劣效性研究，纳入了手术风险低的患者。这些研究显示TAVR与SAVR相比具有非劣效性。

这些试验比较的是两种差异巨大的手术，因此已出现治疗依从性不平衡和随访不平衡的问题，因为一些参与者可能对一种治疗有强烈偏好，也因为无法设盲。虽然研究人员通过知情同意来尽量减少这种不平衡，但并不能完全解决这一问题。治疗依从性达不到100%的情况下，可能会使结果偏向于非劣效性，因此对意向性治疗队列和实际治疗队列（仅包括接受了所分配治疗的参与者）同时进行分析非常重要。

在PARTNER 2A试验中，不依从随机分配治疗方案的患者比例在两组之间相差4倍以上（SAVR组为7.5%，TAVR组为1.7%），但意向性治疗队列和实际治疗队列的结果基本相似，它们的置信区间上限都未超过1.2的非劣效性界值（意向性治疗队列的相对危险度为0.92；95% CI，0.77～1.09；非劣效性P=0.001；实际治疗队列的相对危险度为0.90；95% CI，0.75～1.08；非劣效性P＜0.001）。类似地，在SURTAVI试验中，改良意向性治疗分析（排除了未尝试所分配治疗的患者）被作为主要分析，其结果与意向性治疗分析类似。在这种情况下，缺失数据处理方式也很重要。因为如果在分析中排除未接受所分配治疗的患者，可能导致各组的患者特征不平衡，因此通过填补数据的方式进行完全意向性治疗分析是避免偏倚的另一个重要方法。

3. EXCEL和NOBLE试验

20世纪70年代进行的随机试验证明，在冠状动脉左主干病变患者中，通过冠状动脉旁路移植术（CABG）实施血运重建优于药物治疗，手术患者的中位生存期较药物治疗患者延长了约7年。而PCI在冠状动脉左主干病变的治疗中也变得更加安全和普遍。在比较CABG和PCI重建冠状动脉左主干血运的随机试验中，亚组分析显示PCI组的心脏主要不良事件没有显著增加，恢复时间较短，围手术期卒中风险可能较低。基于此，临床上放宽了PCI的适应证。

EXCEL(评估依维莫司洗脱支架和冠状动脉旁路术对左主干冠状动脉血运重建的有效性，Evaluation of XIENCE versus Coronary Artery Bypass Surgery for Effectiveness of Left Main Revascularization）是专门比较PCI和CABG治疗左主干狭窄的非劣效性试验。主要终点为死亡、卒中或心肌梗死构成的复合终点。结果显示在中位随访3年时，PCI具有非劣效性。

NOBLE（北欧-波罗的海-英国左主干血运重建Nordic-Baltic-British Left Main Revascularization）试验也是一项非劣效性试验，旨在比较PCI和CABG治疗左主干病变，复合终点为术后5年时死亡、卒中、心肌梗死或血运重建。研究人员未得出PCI具有非劣效性的结论，而是得出了CABG具有优效性的结论。

在EXCEL试验中，术后1个月时，PCI患者的围手术期心肌梗死发生率较低，因而复合主要终点发生率低于CABG患者。然而，术后3年时，PCI患者的自发性心肌梗死发生率高于CABG患者（图3）。尽管如此，由于两间3年时的主要终点总发生率并无显著差异，且并未超过预设界值，因此研究人员得出了PCI具有非劣效性的结论。

在NOBLE试验中，由于PCI组中非手术相关心肌梗死和血运重建这两个终点的发生率较高，因此随访5年时，PCI的主要终点发生率高于CABG（29% vs. 19%）；PCI不符合非劣效性标准，因此研究人员得出CABG具有优效性的结论。NOBLE试验的随访期更长，终点涵盖范围更大，这使其与EXCEL试验的结论存在差异。因此，复合临床结局的构成部分和结局评估时机对于结果解读和向患者解释预期疗效具有重要意义。

图3. 冠状动脉左主干血运重建的非劣效性试验中，结局评估时机和终点构成部分的影响

比较PCI与CABG的两项试验得出了不同结论。在EXCEL试验中，次要复合终点为30日时的死亡、卒中或心肌梗死，主要复合终点为3年时的死亡、卒中或心肌梗死。组间绝对差异的非劣效性界值在30日和3年时分别为2.0个百分点和4.2个百分点，大致相当于组间相对差异界值为1.67和1.38。在NOBLE试验中，复合主要终点是全因死亡、非手术相关心肌梗死、冠状动脉血运重建或卒中。虽然两项试验的非劣效性界值大致相似，但EXCEL的结果得出PCI在30日时优于CABG、在3年时不劣于CABG的结论。而NOBLE，基于更长的随访时间和涵盖范围更大的主要终点，得出CABG在5年时具有优效性的结论。

安全性评估

非劣效性研究设计越来越多地用于评估新疗法的安全性。评估安全性的非劣效性研究设计面临一个特殊挑战，即通常并无支持安全性界值的合理数据。取而代之的是，临床顾问必须决定什么水平的不良事件是可以接受的。该水平可能会因事件严重程度、患者群体绝对风险以及治疗预期获益不同而有所不同。

在PRECISION（塞来昔布相对于布洛芬或萘普生的安全性前瞻性随机评估Prospective Randomized Evaluation of Celecoxib Integrated Safety versus Ibuprofen or Naproxen）中，研究者评估了塞来昔布与萘普生相比，在治疗关节炎方面的非劣效性，根据主要复合终点（心血管原因[包括出血]所致死亡、非致死性心肌梗死或非致死性卒中）的预期年度风险2%，选择了1.33作为安全性的相对界值。虽然这是一项包含三组的试验，但第三组不接受安慰剂而是接受布洛芬治疗，作为塞来昔布的第二项非劣效性比较。在10年研究期间，停药率接近80%，表明药物试验易出现依从性达不到100%的情况。然而，无论在主要的意向性治疗分析中，还是在次要的实际治疗分析中，塞来昔布均不劣于萘普生和布洛芬。

当研究人群心血管结局的实际风险为预期风险的一半时，出现了另外一个挑战。尽管使用相对非劣效性界值可以保持该低危人群的非劣效性检验效度，但数据和安全性监查委员会发现，在对事件总发生率所做的检验中，该研究功效不足，因此样本量从计划招募约20,000名参与者增加到最终纳入24,081名参与者。最后，因为在纳入慢性疼痛患者的研究中不应设置安慰剂对照，所以PRECISION试验并未证明其中任何药物的心血管风险未增加（即药物不劣于安慰剂）。

新试验方法及其对非劣效性研究的影响

简化试验实施过程（减少与参与者的联系次数和评估的结局数量）能够更可靠地确认较大样本量，并且可能减少由缺失数据引入的偏倚，从而有利于优效性和非劣效性试验。然而在从日常临床治疗获得随访数据的实效性临床试验中，可能存在治疗依从性不平衡或终点事件确认不精确的问题，这些问题在非劣效性研究中应特别关注。患者为试验设计提供的信息对于非劣效性试验可能特别有价值。鉴于临床实践中共同决策的重要性，我们认为，基于预期获益和风险预设可接受的界值时以及应用研究结果时，应考虑患者偏好。

最后，非劣效性研究可用于比较效果或医疗服务。在以价值取向为基础的医疗框架中，将非劣效性研究设计中的治疗结局评价与费用区分开来，可更好地保证在确保效率的前提下，临床结局仍可接受或更好。除了随机研究，观察性数据分析和荟萃分析也可包括非劣效性假设检验，假设和非劣效性界值提高了这些研究的效度。

改进非劣效性试验

对于非劣效性试验，试验报告统一标准（Consolidated Standards of Reporting Trials，CONSORT）小组、FDA和欧洲药品管理局已提出非劣效性试验的具体标准（表2）。此外，我们建议对以下各项多加注意。

表2. 非劣效性试验的设计、报告和解读建议

* CONSORT表示试验报告统一标准。

第一，非劣效性试验应为界值（基于测量或预期的试验治疗获益）提供明确理由。不应单纯依靠研究者经验或医生群体期望来确定界值，一些可供考虑的方法包括借助决策分析（人口或政策观点）或患者问卷，患者问卷旨在评估非劣效性界值和预期获益的平衡程度。第二，我们建议谨慎使用复合终点，因为其中的构成部分可能包含相互冲突的风险与获益。最后，尽管尽量避免缺失数据是一个重要目标，但在非劣效性试验的设计和分析过程中，应该重视旨在应对数据缺失的敏感性分析（例如多重填补法）。

结论

非劣效性设计在临床研究中的应用日益广泛。虽然非劣效性研究在不同情境下的应用带来了新的挑战，但保证研究效度这一基本原则应该遵守。在合理设计和实施的情况下，非劣效性试验可发现有临床价值的替代性创新疗法。

参考文献

Mauri L, D'Agostino RB, Sr. Challenges in the design and interpretation of noninferiority trials. N Engl J Med 2017;377:1357-1367.