分享

写在样本量估算之前——计算样本量需要考虑的几个因素

 HD6542 2017-08-08

首先声明一句:本文是即将出版的《循证医学与临床研究》中一章的草稿(内容作了简化),尚未最终定稿,书也尚未出版,因此,如果有转载,请务必注明作者及出处。

 

样本量计算可能是很多科研人员和临床大夫最头痛的一件事了,很多人都有同感:为什么每次统计学家都喜欢问我样本量怎么来的?关键是,为什么每次我都不知道怎么回答?当你拿着你的标书准备去答辩,明明能够预见到专家会问你样本量计算,偏偏到时候依然回答不出来。我想这种情况很多人都不陌生。所以,本次以及后面几次文章会专门谈一下样本量计算的问题,今天先说一下样本量估算需要考虑的问题。

样本量估算不是凭空而来,虽然有人对此嗤之以鼻,觉得根本没有意义。但不管如何,有时确实会影响你的文章发表与否,甚至课题申请下来与否,还是需要重视一下的。而且,样本量计算也不是这么主观无意义的,还是有实际意义的。如果你做一个研究,可能需要100例才能发现一些真实结果,但是做了90例,恰好没有发现。多年以后,当你看到别人仅仅因为样本量多得到了阳性结果在新英格兰发表了跟你一样的文章,你会不会后悔当初没有计算样本量呢?很多事情,未雨绸缪总比亡羊补牢的要好。

样本量计算需要考虑什么呢?主要是以下一些因素:

一、研究目的

研究目的是计算样本量首选需要考虑的问题,你是要做组间比较,还是想分析多个变量间的相关,或是想了解某结果的影响因素是什么。不同研究目的,样本量计算的思路也不尽相同。

对于独立样本的组间比较,需要根据比较的指标类型考虑不同的参数。如果要比较的指标是连续资料,需要考虑两组的均值、标准差以及无效假设所设定的两组差值。如果比较的指标是分类资料,需要考虑两组的率以及无效假设设定的两组率差。如果比较的是生存资料,那你需要考虑更多的因素,如受试者的招募时间、随访时间、预期中位生存时间等。

对于相关分析,你可能需要知道分析的指标有多少个,其中哪几个是主要分析的指标,哪几个是混杂因素,主要分析指标之间的相关系数是多少。

回归分析与相关分析比较类似,首先你要明确主要自变量与因变量的偏相关是多少,打算校正多少个混杂因素。

如果研究目的是评价某指标的诊断价值,样本量计算根据诊断指标的不同而不同。如果诊断指标是灵敏度,根据灵敏度和设定的精确度可以估算出所需的“有病”例数;如果诊断指标是特异度,根据特异度和精确度估算出的是“无病”的例数;如果诊断指标是ROC曲线下面积,根据ROC曲线下面积和特定的精确度可以计算出“有病”的例数。


二、研究设计方法

研究设计的方法很多,横断面调查、病例对照研究、队列研究、随机对照试验都有各自的样本量计算思路。

横断面研究是以描述为主,主要目的是获得某调查指标的率或均值,样本量的计算需要通过文献获得调查指标的预期率或均值,同时还需要考虑到调查结果的精确度,精确度通常以容许误差来反映。

病例对照研究和队列研究中的样本量计算,首先需要确定一个主要研究因素,其次还需要考虑可能的混杂因素,混杂因素与结局的关系,等等。有的人可能会说,我做的病例对照研究并没有确定主要研究因素,只是想泛泛地了解疾病发生的影响因素有哪些。这种情况在国内并不少见,其实这种方式的研究并不被真正的研究者所认可,因为这相当于你没有任何的预期研究目的。对于一个真正的研究项目,研究者不可能没有任何预期目的。当然有人提出,对于这种泛泛地探索性研究,至少需要保证样本量是研究因素的10倍以上(事实上,应该是病例的样本量至少是研究因素的10倍以上,而不是总例数)。这一说法主要是从统计学角度提出的,因为病例对照研究采用的是logistic回归,以最大似然法估算参数值,而最大似然法需要足够的样本量才能有稳定的参数估计。10倍以上只是个比较大致可靠的说法,并非说10倍一定可以保证你的结果可靠,还取决于你的数据结构。所以,对于这种漫无目的的研究,只能说样本量当然是越大越好,没有一个统计学家可以给你保证10倍或者15倍一定是足够的。

随机对照试验有多种设计方法,常见的如完全随机设计、析因设计、交叉设计等。不同设计的选择需要根据研究目的来确定,如考虑一个因素还是多个因素,是否需要考虑交互效应等。

三、研究假设

1)单侧假设与双侧假设

有些情况下,你可能已经很确信你的研究只可能出现单方向的关联,那就可以考虑单侧假设。例如阳性药物与安慰剂对比,你完全有把握认为阳性药的疗效不可能低于安慰剂,那就用单侧假设。在其它参数相等的情况下,双侧检验计算的样本量会多于单侧检验。但是一定要注意,千万不要因为这个原因去使用单侧检验。使用单侧或双侧检验是事先定好的,而不是事后修改的。

临床试验中会对单侧检验和双侧检验分的比较清楚。常见的差异性检验都是基于双侧假设,而非劣效性检验、优效性检验、等效性检验则是基于单侧假设。对于非劣效检验、优效性检验和等效性检验,在样本量计算时,除了需要考虑单侧检验水准之外,还需要确定非劣效界值、优效性界值和等效性界值。这些界值通常可根据临床实际情况,结合临床和统计学综合考虑。

2)多重假设

多个主要疗效指标的情况

如果要求多个主要疗效指标同时有统计学意义,才算有统计学意义,此时无需校正α

如果只要一个指标有统计学意义,就认为有统计学意义,这时需要校正α。通常可按指标的重要性对α分配,重要指标的检验水准大一些,次要指标检验水准小一些;如果难以取舍,则将α等分。不管如何分配,其总和不超过α

多组间两两比较的情况

如果一开始的研究假设就是设定要做多组间两两比较,此时需要对α进行校正。通常可采用Bonferroni法,即设检验水准为α’α’=α/比较次数。例如通常检验水准设为0.05,如果研究3组间两两比较,共需比较3次,此时需将检验水准设为0.05/3=0.0167,以此作为计算样本量的依据。

研究过程中多次比较的情况

这种情况主要见于期中分析,就是在整个研究结束之前,在研究期间按照事先设定进行1次或多次检验,这样整个研究会产生多次假设检验。这种做法可以及早确认疗效或安全性,也可以节省样本。期中分析也涉及检验水准的校正问题。常用的校正方法有3种:

Pocock法,该法对每一阶段均采用相同的临界值和名义检验水平(临界值这些需要查表获得)。如5个阶段的序贯设计,每一阶段均采用临界值2.413,名义水平均采用0.0158,即统计量必须大于2.413(而不是常规的1.96),P值必须小于0.0158(而不是常规的0.05),才能拒绝无效假设。

O’Brien-Fleming法,该法对不同阶段采用不同的临界值,早期阶段临界值设定较高,越到后期阶段临界值越低。如对于4阶段的序贯设计,四个阶段的临界值分别为4.049、2.863、2.337、2.024。该法早期阶段较为保守,除非P值特别小,否则早期通常难以拒绝无效假设。但到最后一个阶段其P值接近总的检验水平。

power family法,该法是Pocock法和O’Brien-Fleming法的推广,其界值主要取决于两个参数ρτ。当ρ=0τ=0时,就是Pocock法;当ρ=0.5τ=0时,就是O’Brien-Fleming法。

这部分可能有点难度,总的来说,就是对检验水准进行校正。感兴趣的参考《医学实验设计分析与SAS实现》。


四、一类错误、二类错误和把握度

在计算样本量的时候,必须考虑一类错误和二类错误的大小。不管是一类错误还是二类错误,设的越小,所需的样本量越大。很多情况下,研究者习惯将一类错误(α)设为0.05,二类错误(β)设为0.2,但这并非一成不变,可以根据研究目的来调整。例如研究某药物是否增加心血管风险的研究中,研究者考虑到该药研发期间的耗费,认为犯一类错误是很严重的,可能会使前期投入完全浪费,那么可以将α设的低一些(如0.025)。反过来,如果研究者认为心血管事件风险的增加是很严重的,此时可以将β设的小一些(如0.05)。

五、效应值大小

效应值就是总体中的关联强度,关联强度在不同研究中有不同的体现形式,如组间比较体现为组间差值大小,相关性分析体现为相关系数大小,logistic回归中体现为OR值大小,Cox回归中体现为HR值大小等。

一般来说,总体中效应值越大(如两种治疗方式的空腹血糖相差20mg/dL),所需样本量越小;效应值越小(如两种治疗方式的空腹血糖相差2mg/dL),所需样本量越大。

六、变异大小

除了效应值之外,变异大小也会对样本量产生影响,这主要体现在两组或多组间连续资料的比较中。对于组间连续资料的比较,样本量不仅取决于各组间的均值差异大小(效应值),也取决于各组的变异大小(方差)。在效应值固定的条件下,如果各组变异很大的话,意味着各组间的重叠较多,需要更多的样本量才能够发现组间差异;反之,如果各组变异很小,提示各组间的交叉不多,可能较小的样本就可以发现组间差异。

总之,样本量的计算是比较复杂的,需要考虑的因素也很多。本文仅是列出了一些主要需要考虑的因素,不一定很全面,但可以作为参考。后面慢慢再说具体如何计算。

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多