【定量药理学】单组目标值临床试验多指标时的样本量估计

渐近故乡时 2018-01-15

展开全文

陆梦洁¹，刘玉秀²，卢光明¹，张龙江¹，黄伟¹，葛爱晨³

¹中国人民解放军南京总医院（金陵医院）医学影像中心²中国人民解放军南京总医院（金陵医院）医学统计学教研室³南京医科大学医政学院，南京210002，江苏

国家自然科学基金项目( 81473066)

陆梦洁，女，硕士，研究方向：临床试验生物统计学方法学研究。

刘玉秀，通信作者，男，硕士，主任医师，教授，硕士生导师，研究方向：临床试验生物统计学方法学研究及应用。

摘要目的：针对多个以率为共同终点评价指标的单组临床试验，探讨控制全局把握度的样本量估计方法。方法：根据单组目标值法单指标时的样本量估计方法，在理论上阐明单组临床试验多个共同指标时样本量估计的原理，提出控制全局把握度的样本量估计方法。事先设定各单指标目标值、靶值、Ⅰ类错误率及总的Ⅱ类错误率水平，在给定的样本量下可算得各单指标对应的把握度，相乘后即为全局把握度，利用逐步寻值即可获得达到全局把握度时所需的样本量。结果：结合一个单组临床试验案例，基于4个率指标，利用样本量估计的正态近似法和确切概率法，分析对比了传统直接校正把握度的方法和本文逐步寻值法所估计的样本量结果，后者能更准确地控制全局把握度，所需的样本量更少。结论：本文给出的单组目标值临床试验多指标情形下逐步寻值的样本量估计方法，能较好地控制全局把握度、节约样本量，具有很强的实用价值。

关键词 目标值法；多指标；样本量；全局把握度；逐步寻值法

随机对照试验( randomized controlled trial，RCT)被公认为临床试验的金标准，然而有些临床实际情况不适合开展RCT，而适于采用单组临床试验目标值法(objective performance criteria，OPC)来设计临床试验^[1]。单组目标值法是一种在事先制定某种结局指标临床目标值的情况下，通过单组临床试验推断相应指标结果是否在指定的目标值范围内，以此来评价某产品有效性或安全性的一类方法，其统计学本质是单组样本率与已知总体率的比较。在单组临床试验设计中，常会遇到需要多个指标来共同说明一个临床问题的情况，如何对多指标情况下单组目标值法的样本量进行估计是需要解决的一个重要实际问题。本文针对共同终点均为率指标（共同终点指多个终点同时具有统计学意义视为成功）的单组临床试验，基于二项分布理论和样本量估计原理，探讨其样本量估计的方法。

1 单指标目标值样本量估计方法

假设某单组临床试验的主要评价指标为高优指标，发生率越大越好，比如治疗成功率。其发生率（靶值）为P_t，预先设定的目标值为P₀，其中，靶值是主要评价指标预计会达到的点估计值，目标值常是被广泛认可的标准值，是事先规定的置信区间界限（单侧）。令n为样本量，α为检验水准，p为n类错误率，通常单组目标值临床试验统计推断都是基于单侧的检验基础，其假设检验为H₀：P_t=P₀，H₁：P_t>P₀，当靶值的置信区间下限高于目标值时，则判断为达到预期要求。目前，针对单指标目标值法的样本量估计方法主要有3种，分别为近似正态法、确切概率法及基于确切概率的保守法。

1.1正态近似法 根据正态近似法计算单组目标值法的样本量估计公式^[2]为

式中，Z_1-α和Z_1-β。均为标准正态分布分位数。其对应的把握度为

1.2确切概率法 对于检验水准为α的单侧检验，根据二项分布原理可知，存在一个非负整数满足以下两个等式^[3]：

若某临床试验发生期望事件的例数为x，存在x≥r时拒绝无效假设H₀。在备择假设H₁的条件下，检验的把握度为

当设定一个目标把握度(1 -β)后，可通过求解公式(5)获得满足该把握度的最小样本量。

1.3基于确切概率的保守法 有学者对正态近似法和确切概率法这两种样本量估算方法进行了比较，发现两种结果较为接近，两种方法均以第一次达到目标把握度时所能对应的样本量作为最终计算得到的单组目标法样本量。然而在单组目标值样本量估计时，样本量与把握度呈现一种非单调变化的现象，有学者对该现象的原因进行了剖析，认为该现象源于离散型概率分布的理论检验水准与实际把握度的非单调性。也就是说，由于二项分布是离散的概率分布，很难找到一个样本量界值其对应的实际检验水准和理论检验水准相吻合。事实上，实际检验水准和实际把握度的变化是一致的，但实际检验水准和理论检验水准的变化不一致，导致了样本量与实际把握度变化的非单调性，具体表现为随样本量增加实际把握度呈“锯齿状”变化（见Fig.1），使满足目标把握度的样本量估计变得复杂。

为此，有学者提出^[4]，在确切概率法的基础上保守考虑样本量的确定方法较为稳妥。由于样本量与把握度呈“锯齿状”非单调变化，当样本量n₁（如Fig.1中191例）第一次达到目标把握度（一般规定80%）时，随着样本量继续增加，把握度仍会回落，因此该样本量不能作为最终的样本量，而应该选择全部达到目标把握度以上的样本量最小值作为最终确定的样本量（如Fig.1中202例），我们姑且称该样本量确定方法为保守法。

2 多指标控制全局把握度的样本量估计逐步寻值法

设临床试验中主要指标数为k，预先设定各指标靶值及目标值分别表示为P_tj和P_0j(j=1，2，…，K)。在传统的多个指标样本量估计中，对把握度的处理往往采用对各指标把握度进行统一校正的方式，可计算得到每个指标的把握度为，然后按）求得各个主要指标所需的最小样本量m_j（j=1，2，…，K），试验的最终样本量确定为所有指标对应样本量n中的最大值max( n_j)。然而，这种方法必然造成除最大样本量对应指标外的其他指标把握度的浪费，从而导致全局把握度的膨胀。

为此，我们提出一种控制全局把握度（1-β）来确定在多个共同主要指标情况下所需的样本量估计方法。该方法的思路如下：令总的把握度为(1-β)，检验水准为α。事先给定一个样本量范围，采用逐步寻值法来估计各样本量对应的全局把握度（1 -βj），进一步求算全局把握度为（本文仅考虑各指标相互独立的情形），当某样本量对应的全局把握度达到事先设定的要求时，该样本量确定为最终样本量n。

3案例分析

某公司开发了一种用于治疗Stanford B型主动脉的主动脉覆膜支架，为了评价该产品的有效性和安全性，拟采用单组多指标目标值法临床试验。试验中有4个主要评价指标，分别为30 d主要不良事件率( MAE)、技术成功率、12个月内二次干预率及12个月内主动脉重塑率。欲估计试验所需样本量，需设定每个指标的目标值及靶值。

经过查阅文献及专家讨论后，设定4个主要评价指标对应的目标值为88%、95%、12%和76%，其对应的靶值为95%、99. 5%、5%及86%。

由于统计推断的假设是同时针对4个主要评价指标的，要求在5%的检验水准上同时拒绝无效假设方可认为试验满足预期目标，因此在进行推断时无需进行I类错误率α的校正^[5]。但是，在进行设计阶段样本量的估计时，如果考虑4个指标同时推断的把握度达到一定水平（如80%），假定这些指标是完全独立的，则需要对每一指标推断的Ⅱ类错误率进行校正，以确保达到全局把握度的要求。传统的样本量估计思想是先对每一单指标按照α=2.5%（单侧检验水准）、β'=5. 426%[校正的Ⅱ类错误率=100×（1-）%]的设定估计各指标对应的样本量，选择最大者作为本试验的样本量估计结果；而逐步寻值法是通过寻值的方法搜寻全局把握度（各指标把握度的乘积）达到目标要求时的样本量，将其作为本试验的样本量估计结果。Fig.1给出了采用正态近似法和确切概率法计算得到的不同样本量对应的全局把握度大小。其中，正态近似法为通过公式(2)直接计算得到的全局把握度大小；确切概率法为直接求算拒绝无效假设的概率所得到的全局把握度大小。

从Fig.1可见，正态近似法求得的全局把握度呈单调递增变化，而确切概率法求算得到的全局把握度均随着样本量增大呈现“锯齿状”变化，由于二项分布的离散性质，随着样本量的增大，全局把握度整体上呈现增大的趋势，但是在小范围内仍有一定回落。在本例中，若采用正态近似法求样本量，达到80%目标把握度的最小样本量为186例；若采用确切概率法求样本量，在191例时，第一次达到80%以上，而在191~195例范围内，随着样本量增大，全局把握度呈下降趋势，且在195例时实际把握度不足80%，从195-196例有一个小小的跳跃，全局把握度再一次大于80%，然而，从197~ 201例呈先下降后上升变化，但模拟把握度始终达不到80%，从201~202例有一个大的跳跃，全局把握度达到85%，且此后的样本量对应的全局把握度均在80%以上。因此，在基于确切概率法计算得到的样本量抉择时，若从节省样本量的角度，应以达到并最接近目标把握度的值作为估算的最小样本量，即191例；若从保守的角度，应以达到并最接近目标把握度且之后所有样本量对应把握度均不小于目标把握度的值作为估算得到的最小样本量，即202例。Rosner等学者认为，最终应将样本量设定为后者^[6-7]。

Tab.1给出了各指标参数及各方法求得的最终样本量大小，三种方法采用传统校正所求得的最终样本量分别为199、202和212例，而采用逐步寻值法所得的最终样本量为186、191和202例。

4讨论

在临床试验设计时，常常会遇到需要多个主要指标来共同说明一个临床问题的情况。例如，2002年7月美国FDA发布的有关于射频消融导管扩大室上速适应证的临床试验指导原则^[8]，提出了射频消融导管扩大室上速适应证3个主要指标，其目标值分别为：即刻成功率≥85%，远期成功率≥80%，而主要并发症≤7%。当一个临床试验中存在多个主要指标、且作为共同指标时（作为多重指标则另当别论），传统的确定样本量的方法是对各个主要指标的n类错误率进行校正以保护全局把握度，并分别计算不同指标所需的样本量，并从中选取最大值作为临床试验最终所需的样本量。把握度大小与样本量大小有关，当最终样本量定为某指标对应的最大样本量时，必然造成其他指标把握度的浪费，从而导致全局把握度的膨胀。

本文针对二分类变量以率作为终点评价指标、多个终点为共同终点的单组临床试验，在传统的校正把握度的基础上，基于控制全局把握度的思想，对正态近似法和确切概率法进行样本量估计的方法进行研究。结果表明，通过逐步寻值法估计样本量，能有效节约样本量，具有很强的实用价值。如2011年3月我国CFDA发布的乳房植入体产品注册技术审查指导原则提出，对乳房植入体临床试验评价中需采用2个临床主要评价指标，分别为破裂率和包膜挛缩率（Baker分级Ⅲ、Ⅳ级），其靶值为2%和14%，目标值为10%和24%，指导原则中给出了最低样本量为188例^[9]。若采用本文中正态近似法、确切法及保守法借助逐步寻值方法，在设定总的检验水准为2. 5%（单侧）、总的II类错误水平为80%时，计算得到的最终样本量分别为130、128和138例，在保证全局把握度达到目标的情况下均可节省一定的样本量。

值得注意的是，对于率指标，采用确切样本量估计样本量时，由于样本量与把握度非单调变化关系的存在，对如何选择样本量在学术上仍存在争议。一般情况下，可选择确切概率法首次达到目标把握度对应的样本量，一些样本量软件，如PASS软件，也是按此规则计算的。但有学者认为，该样本量不能保证实际入选样本量变化时达到目标把握度，因此应选择保守法获得的样本量^[4-7]。对于本文中的案例而言，若采用确切概率法的逐步寻值，获得第一次达到目标全局把握度的样本量为191例，但如果从确保全局把握度达到预期水平的角度考虑，采用保守法，选择202例将更加稳妥。事实上，任何研究的样本量估计都绝不是从统计学上给出一个数字而已，样本量估计是一个成本．效果和把握度的综合权衡过程。ICH E9指出，临床试验的样本量必须足够大，以可靠地回答研究假设所提出的相关问题；同时又不至于太大而造成浪费^[10]。因此，有经验的统计专业人员往往会为临床研究者提供带有不同情景下的一组样本量结果，这样更有利于临床专业人员结合不同的情形作出样本量的决策。

本文给出的多个共同终点、控制全局把握度的样本量估计逐步搜寻法，不仅适于单组目标值临床试验，其思想和原理同样也适用于随机对照试验多个共同终点的样本量估计。当然，本文方法也还存在一些不足。例如，该方法假设共同指标间互相独立，事实上各指标间并非完全独立，若各指标间存在相关性，则最终样本量会减小，因此基于本文样本量估计方法求得的结果偏于保守，对各指标间具有相关性时的样本量估计方法尚需进一步探讨。

参考文献略