样本量估算需要考虑哪些因素——系列之三

Wjwelf 2018-04-28

展开全文

三、研究假设

研究假设是针对特定总体提出的、与主要研究目的有关的一种假定。通常我们在做某一研究时，都要先提出一种假设，然后招募研究对象，获取数据并进行统计分析，根据统计分析结果判断事先做出的假设能否成立。

1. 无效假设与备择假设

最基本的两种假设是无效假设（null hypothesis）和备择假设（alternativehypothesis），这是统计检验的基础，在理解下面的几种假设之前，我们有必要先回顾一下这两种最基本的假设。

统计分析的过程可以看作是一个验证假说的过程，当你开始一项研究的时候，总会有一个事先的假定（否则你就不会做研究了）。比如研究感染幽门螺杆菌是否会增加胃癌发生的风险，你可能会事先有个假定，根据以前的临床观察，认为幽门螺杆菌感染的患者可能发生胃癌的风险会增加，这就是你打算验证的假设。

不过假设检验并不是直接验证你这个预期假定，而是通过无效假设先做出一个“无效”的假定，即认为幽门螺杆菌感染并不增加胃癌发生的风险（或者说，幽门螺杆菌阳性患者的胃癌发生率并不比阴性患者高）。然后利用收集到的数据计算统计结果，检验这一结果能否推翻无效假设。

有的统计学家也将这一过程称为“攻击稻草人”的过程，它是通过反证法的思想，设定无效假设，然后计算在无效假设成立的条件下，出现现有数据所得结果的概率有多大。如果出现的概率很低（如<0.05），可以认为，如果无效假设成立，出现现有结果的概率很低，换句话说，这种结果不大可能出现，一旦出现，很有可能是无效假设本身有问题。所以认为无效假设可能是错误的，不能接受无效假设，而应接受无效假设的对立面，即备择假设。

无效假设和备择假设始终是相互对立的，通常备择假设是你预期想要达到的结论，而无效假设只是你想攻击并推翻的对象。例如：

无效假设：幽门螺杆菌阳性不会增加胃癌发生的风险；

备择假设：幽门螺杆菌感染会增加胃癌发生的风险。

无效假设：服用塞来昔布与不服用塞来昔布对关节炎患者具有相同的疗效；

备择假设：服用塞来昔布的关节炎患者其疗效不等于不服用塞来昔布的关节炎患者。

2. 单侧假设与双侧假设

有一个问题很令临床人员头疼，那就是到底什么时候选择单侧假设，什么时候选择双侧假设？如果你的备择假设很明确地规定了关联方向（如幽门螺杆菌感染会增加胃癌发生的风险），这就是单侧假设；如果备择假设不确定关联方向（如幽门螺杆菌感染与胃癌发生有关，可能是降低也可能是增加），这就是双侧假设。

备择假设既可以是单侧的，也可以是双侧的，取决于你的研究目的。有些情况下，你可能已经很确信你的研究只可能出现单方向的关联，那就可以考虑单侧假设。例如阳性药物与安慰剂对比，你完全有把握认为阳性药的疗效不可能低于安慰剂，此时备择假设就可以是阳性药疗效高于安慰剂。但是有一点必须提醒一下，有时即使你认为不可能出现双侧关联，结果往往仍会出乎你的意料。如国外一项关于胡萝卜素会降低肺癌发病风险的研究，就出现了与单侧假设不符的结果。所以比较稳妥的建议就是，尽量采用双侧检验。

采用双侧检验和单侧检验所需的样本量是不一样的，因为单侧检验水准和双侧检验水准所对应的标准正态分位数不同。单侧检验对应的是Z_1-α，而双侧检验对应的是Z_1-α/2，因此，在其它参数相等的情况下，双侧检验计算的样本量会多于单侧检验。但是一定要注意，千万不要因为这个原因去使用单侧检验。使用单侧或双侧检验是事先定好的，而不是事后分析发现双侧检验P=0.072而单侧检验P=0.036而改成单侧检验。

临床试验中会对单侧检验和双侧检验分的比较清楚。常见的差异性检验都是基于双侧假设，而非劣效性检验、优效性检验、等效性检验则是基于单侧假设。

非劣效性（non-inferiority）试验是检验试验药是否不劣于对照药的试验。非劣效性试验通常只用于阳性药物对照的试验中。采用非劣效试验时，阳性药物应为具有明确疗效的上市药物，试验药应在其它方面对阳性药物具有一定优势，如不良反应低、给药方便、耐受性好、价格便宜等。

等效性（equivalence）试验是检验试验药与对照药是否等效。等效性试验通常用于阳性对照药的试验，如某仿制药与原药进行疗效比较，如果达到等效性，则仿制药可被接受。再如，研究能否以小剂量代替大剂量，以疗程短的药物代替疗程长的药物等，均可采用等效性试验。

优效性（superiority）试验是研究一种药物的疗效是否优于另一种药物（或安慰剂）。通常情况下，以安慰剂为对照的试验应当做优效性检验。

以均值为例，假定T表示试验组，C表示对照组，表1说明了这几种检验的假设。

表1 临床试验中常见检验类型及假设

检验类型	无效假设	备择假设
差异性检验	H₀：μ_T-μ_C=0	H₁：μ_T-μ_C≠0
非劣效性检验	H₀：μ_T-μ_C≤-δ	H₁：μ_T-μ_C＞-δ
等效性检验	H₀：\|μ_T-μ_C\|≥δ	H₁：\|μ_T-μ_C\|＜δ
优效性检验	H₀：μ_T-μ_C≤δ	H₁：μ_T-μ_C＞δ

注：μ_T和μ_C分别表示试验组和对照组的总体均值，δ表示非劣效界值。

对于非劣效检验、优效性检验和等效性检验，在样本量计算时，除了需要考虑单侧检验水准之外，还需要确定非劣效界值、优效性界值和等效性界值。这些界值通常可根据临床实际情况来确定，对于临床难以确定的界值，可结合临床和统计学综合考虑，具体可参考《医学实验设计分析与SAS实现》。

3. 事前假设与事后假设

事前假设是在研究开始前就明确在方案中规定好的假设，是研究者目的很明确的要做的假设。比如你要做一项随机对照试验，验证孟鲁司特钠（Montelukast）与安慰剂对比治疗成人感染后咳嗽的效果，该研究是一个优效性研究，那事前就会做出备择假设为：孟鲁司特钠治疗咳嗽的效果优于安慰剂。

事后（post-hoc）假设是指在根据事先计划对数据进行统计分析结束后，进一步做的一些探索性分析，事后假设一般没有出现在研究方案中。例如，分析清除幽门螺杆菌对胃癌影响的研究中，研究者根据数据，发现吸烟人群和不吸烟人群的效果不同，因此想探索一下在吸烟人群这一亚组中，清除幽门螺杆菌的效果如何。这一假设在一开始的方案中并没有规定，而是统计分析后根据分析结果的提示而产生的想法，这就是事后假设。

事后假设由于是根据已有的一定结果提示而产生的，而且往往是针对某一亚组人群，因此容易产生假阳性错误。所以对事后假设通常需要对检验水准进行校正。很多情况下，如果你想做事后假设，可能会出现样本量不足的情况。所以在计算样本量的时候，尽量在事前假设中考虑好你想要实现的目的。

4. 单一假设与多重假设

单一假设也就是只做一次假设检验，如两种药物的疗效比较，备择假设就是两组间差异不相等。这种假设中，研究终点一次比较，不涉及多组两两比较，而且只有一个主要疗效指标。所以在做假设检验的时候，只需一次即可。

多重假设即对同一数据多次使用假设检验，由于统计学假设检验总是存在一定犯错风险，因此多次假设检验存在的错误风险更大。这时在计算样本含量的时候，必须考虑到这种由于一类错误扩大所带来的样本量增加问题。当涉及到多个主要疗效指标、多组间两两比较、多次时间点比较等情形，就会遇到多重假设问题。

（1）多个主要疗效指标的情况

如果要求多个主要疗效指标同时有统计学意义，才算有统计学意义，此时无需校正α。

如果只要一个指标有统计学意义，就认为有统计学意义，这时需要校正α。通常可按指标的重要性对α分配，重要指标的检验水准大一些，次要指标检验水准小一些；如果难以取舍，则将α等分。不管如何分配，其总和不超过α。

还有一种情形称之为顺序检验（hierarchical testing），是指对于多个分析指标，事先设定一定的分析顺序，然后根据这一顺序，依次检验。只有第一个指标有统计学意义，才继续分析第二个指标，第二个指标有统计学意义，才继续分析第三个指标，……，以此类推。例如有a、b、c三个主要疗效指标，研究设计时便设定其分析顺序为a、b、c，则在进行统计分析时，首先分析a，如果a有统计学意义，则分析b，否则整个分析结束。如果继续分析，如果b仍有统计学意义，则分析c，否则分析结束。这种情况下，无需对检验水准校正。

（2）多组间两两比较的情况

如果一开始的研究假设就是设定要做多组间两两比较，此时需要对α进行校正。通常可采用Bonferroni法，即设检验水准为α’，α’=α/比较次数。例如通常检验水准设为0.05，如果研究3组间两两比较，共需比较3次，此时需将检验水准设为0.05/3=0.0167，以此作为计算样本量的依据。

（3）多次时间点比较的情况

多次时间点比较通常出现在期中分析。所谓期中分析，就是在整个研究结束之前，在研究期间按照事先设定进行1次或多次检验，这样整个研究会产生多次假设检验。这种做法可以及早确认疗效或安全性，也可以节省样本。

由于需要多次检验，期中分析也涉及检验水准的校正问题。常用的校正方法有3种：

Pocock法，该法对每一阶段均采用相同的临界值和名义检验水平。如5个阶段的序贯设计，每一阶段均采用临界值2.413，名义水平均采用0.0158，即统计量必须大于2.413（而不是常规的1.96），P值必须小于0.0158（而不是常规的0.05），才能拒绝无效假设。

O’Brien-Fleming法，该法对不同阶段采用不同的临界值，早期阶段临界值设定较高，越到后期阶段临界值越低。如对于4阶段的序贯设计，四个阶段的临界值分别为4.049、2.863、2.337、2.024。该法早期阶段较为保守，除非P值特别小，否则早期通常难以拒绝无效假设。但到最后一个阶段其P值接近总的检验水平。

power family法，该法是Pocock法和O’Brien-Fleming法的推广，其界值主要取决于两个参数ρ和τ。当ρ=0且τ=0时，就是Pocock法；当ρ=0.5且τ=0时，就是O’Brien-Fleming法。

这三种方法的具体介绍详见《医学实验设计分析与SAS实现》。

5. 简单假设与复杂假设

简单假设（simple hypothesis）通常只包含一个预测变量和一个结局变量。如备择假设为有无焦虑与生活质量的高低有关联，预测变量是是否有焦虑，结局变量是生活质量评分。再如清除幽门螺杆菌与胃癌降低有关，预测变量是是否清除幽门螺杆菌，结局变量是胃癌是否发生。简单假设中，样本量的计算无需考虑太多，如果预测变量是分类变量，目的是比较各组的均值、率，了解每组的均值和标准差、率等即可；如果预测变量是连续变量，目的是分析预测变量与结局变量的相关性，需要获得它们之间的预期相关性大小。

复杂假设（complex hypothesis）主要是指包含多个预测变量，有时有可能包含多个结局变量。例如，焦虑、抑郁可能与生活质量的高低有关联，这里就存在两个预测变量。这种情况下，样本量的计算可以确定一个主要研究的预测变量，其它作为混杂因素进行校正，如果真的想把几个预测变量都作为主要预测变量，需要考虑检验水准的校正问题。

部分情况下，复杂假设还存在这样一种情形，即包含多个结局变量。例如服用罗非昔布可能与心肌梗死、缺血性或出血性中风有关联，这里结局就包含了三类。这种情况下，你可以将其拆成单个的假设检验，校正检验水准。另一种比较常见的做法是将其作为一个复合指标，如服用罗非昔布可能与心血管事件有关（定义心血管事件为心肌梗死、缺血性或出血性中风）。在复合指标中，仍需要考虑检验水准的调整问题。

6. 主要假设与次要假设

在很多临床研究中，很可能你想回答不止一个问题，这并不等于你可以在研究计划中随意写若干研究假设。很多临床研究在描述分析指标时，往往不分主次地写多个甚至十多个研究指标，这种情形在国内很常见，但并不可取。你可以事先建立很多临床上有意义的假设，但最好仅指定其中一个作为主要假设（primary hypothesis）。这个主要假设是你计算样本量的依据，无需考虑检验水准的调整问题，也使得你的目的十分集中。其它的假设作为次要假设（secondary hypothesis），也就是可能不是特别重要但研究者也会感兴趣想了解的内容。

例如，研究服用塞来昔布是否会增加心血管事件发生的风险，但同时也想了解其对胃肠道的影响。服用塞来昔布与心血管事件的关联这是主要假设，而其它与胃肠道事件的关联则是次要假设。计算样本量时，主要考虑与心血管事件的关联即可。