【原】临床试验设计的基本考虑（三）样本量估算的影响因素

松哥精鼎统计 2020-10-23

展开全文

导读

在临床研究中，我们有了明确的研究目的，又确定了研究对象的纳排标准。这个时候，经常会有研究者问，我该纳入多少受试者合适呢，太少了应该得不出阳性结果吧，太多了也没有那么多钱和精力去完成啊。“纳入多少受试者合适呢”这就是一个样本含量估计的问题。后面几期我们将对样本量的估计进行详细的探讨。今天重点讨论样本含量估计的前期准备。

临床试验中有关样本量的估计一直是申办方和主要研究者非常关注的问题之一。其原因一是临床研究中采用的设计方案种类较多，而每一种方案几乎都有各自的样本量估计方法，因此显的较为复杂，二是样本量估计需要依据多种参数，而有的参数不容易确定；三是样本量计算公式复杂，计算起来很不易。

1.什么是样本量及样本量估算

临床研究中所需的调查或观察的研究对象的数量称为样本含量。样本含量的估计就是在保证研究结论具有一定准确性、可靠性的条件下，基于特定的研究目的和研究设计，对预设的统计学参数，根据统计学原理计算得出初步的样本量，然后根据法规要求、经费预算、受试者依从性、伦理考虑等因素进行适当的调整，确定最合适的研究例数。比如新药临床试验的样本量，有GCP法规要求、《临床试验中样本量确定的统计学考虑-专家共识》指导进行样本含量估计，既要满足法规要求还要符合统计学要求。

2.决定样本含量的有关因素？

样本含量应为多大才合理?这是一个较为复杂的问题，需结合专业要求和统计学要求确定。考虑到研究目的、客观条件和有限的资源，最终纳入研究的样本含量既要足统计学的要求，又要切实可行。通常样本含量的最后确定，需由临床研究者与统计学家进行讨论而达成一致意见。我们以“降钙素和安慰剂对绝经后女性骨质疏松治疗效果评价的随机、双盲、安慰剂平行对照试验”为例，说明随机对照临床试验影响样本量的因素：

（1）试验的主要目的是什么?研究目的不同，所用的统计分析方法也不同，样本量估计方法也不相同。假设该试验的主要目的为降钙素是否有降低骨质疏松的作用，比较两组患者治疗效果（有效率）的差别，属于差异性检验。

（2）反应结果的主要指标是什么?样本量应当根据主要观察指标进行估计。如果该试验以骨密度检测来评价降钙素治疗绝经后女性骨质疏松的有效性及安全性，疗效判定标准（显效：患者的骨密度明显增加，并且增加超过2.5％；有效：患者的骨密度增加，但小于2.5％；无效：患者的骨密度无增加，处于持续流失状态；总有效率=(显效例数+有效例数) /总例数*100％）。那么骨密度的改善效果（有效率）就是主要观察指标。

（3）检验用什么统计方法?样本量的估计是根据评价主要观察指标所用的统计方法来决定的。本例分析是比较服用降钙素和安慰剂后6个月骨密度改善效果（有效率），采用两独立样本率比较检验。

（4）安慰剂的预期有效率。

（5）降钙素的预期有效率。

（6）检验水准的确定：一般取检验水准=0.05。为犯第Ⅰ类错误的概率，即处理效应实际上是一样的，而检验结果得出差异有统计意义结论的概率。

（7）第Ⅱ类错误概率的确定：有多少把握(把握度，或称效率、检验效率)检出此差异?一般要求有80％的把握得出有统计学意义的结果，也就是确定了第Ⅱ类错误概率β为20％。第Ⅱ类错误的概率β为处理效应实际上是不同的，而检验得出无统计学意义的概率，也称为假阴性错误的概率。把握度( power)的意义是：当两总体确有差别，按检验水准，假设检验能发现其差别(拒绝原假设)的能力。

3样本量估计的常见类型

不同的临床试验设计类型对应不同的样本量估计方法，比如平行组设计、交叉设计、析因设计。同一研究设计，因为不同的研究目的，对应不同的估计方法。这里仍以“降钙素和安慰剂对绝经后女性骨质疏松治疗效果评价的随机、双盲、安慰剂平行对照试验”为例，如果研究目的是为了评估降钙素和安慰剂疗效有无差异，则需要采用两样本率差异性检验的样本量估计方法；如果研究目的是为了评估降钙素治疗效果优于安慰剂，则需要采用两样本率优效性检验的样本量估计方法。

4.样本量估计的实现方法

随着计算机技术的快速发展，样本量估计已经不再采用手工进行操作了，都是采用计算机软件进行计算。临床研究常见的样本量估计应用软件，如PASS、 SAS、STATA、R、EXCEL。还有一些在线样本量计算工具，比如Power And Sample Size

（http:///Calculators/）可计算单样本均数，两个或多个样本均数（率）比较，配对均数（率）比较，生存数据比较，诊断试验OR值比较等。

5.样本量估计的注意事项

(1)试验设计类型：临床试验所采用的设计类型不同，样本含量估算所考虑的因素也不尽相同，因此选择合适的试验设计类型很重要。例如平行随机对照试验、分层随机对照试验、随机交叉对照试验。而我们的交叉设计，又可以分为2×2交叉、2×3交叉。正是由于试验设计的类型的多样性，才体现了样本量估计的复杂性。

(2)组别的数量：设置合适的组别，不能盲目增加组别数量。当受试对象随机分为多组(三组或以上)时，比如两个试验组与一个对照组，这个时候样本量计算更加复杂。

(3)组间的分配比例：通常组间比例为1:1，从统计学原理来看，各组例数相等时检验效能最高。当临床试验各组的分配比例不等时，例如试验组与对照组的分配比例为2:1时，需要在计算样本量时考虑比例的问题。不建议组间的比例过大，因为在比例≥3:1时，把握度开始显著下降。

(4) 预期的失访率：估计的样本含量是试验中必须得到的具有完整资料的受试数量，而不是纳入试验的例数，实际观察或随访过程中还需考虑失访的情况。为满足试验目的和统计学要求，研究者应根据预计的失访率调整扩大样本含量。在假设失访是随机的前提下，调整的样本含量=估算的样本含量×(1+失访率)。

(5)预计的治疗依从性大小：受试者对治疗的不依从，可能会影响试验组与对照组之间的疗效差别，因此对用于估算样本含量的组间疗效差值应做出调整。

(6)分层随机分配的层数：试验采用分层随机分配时，既要考虑总的样本量又需虑各层内的病例数符合统计学要求。

(7)样本量估计时还需要考虑随访周期、多重比较、重复测量、多个结局指标等特殊情况。

(8)不能盲目追求样本量，认为样本量越大越好。因为样本量太大会加大试验所需要的人力、物力和财力；过大的样本量还会增加由于研究质量得不到控制而带来的各种偏倚。