提到样本量计算,应该是临床研究者比较头疼的一件事情。因为样本量的计算需要提供一些参数,我们都知道样本量是由公式算来,公式里当然有各种参数,如果没有参数再完美的公式也没法运算。在这些参数里,除了需要常规的Ⅰ类错误(通常ɑ=0.05)和Ⅱ类错误(通常β=0.1或0.2)外,还需要该研究终点观察指标的参数,比如某手术方式术后并发症的发生率。 这时候往往会有人说,我的研究有很多终点观察指标怎么办(如术中出血、手术时间和术后并发症等)?那么就需要挑出一些重要的指标来计算了。如果好几个指标都很重要,这时候需要逐个计算,然后取最大的样本量来开展研究。既然能满足最大样本量需要的终点观察指标,其他指标应该也都能满足了。 经常有研究者说,我的课题还没做呢,我怎么知道不同术式后的并发症的发生率啊?这样就需要参考别人的文献了。但也有的情况时,在各大数据库里根本就没有这些文献,这时候研究者就只能自己去做预实验获得这些指标了。 言归正传,首先说说样本量的计算软件吧。常用的计算软件有SAS、Stata、SPSS、PASS、G*Power、StatXact和各种R包等等。其中除SPSS Sample Power、PASS和StatXact外,其他都是免费的。其次是两个率比较时需要考虑的因素:1、采用渐进还是精确的检验,2、是否合并两组率及派生合并方法,3、是否采用连续性校正,4、是否进行反正弦转换。 下面我们就来看一下不同选择时的样本量计算公式(精确检验没有固定的样本量计算公式,反正弦转换也不作讨论),假设对照组的率为p0,试验组的率p1,q0=1-p0,q1=1-p1,两组样本比例为1:1,总样本量为n。 1、合并两组率的计算公式为: 2、不合并两组率的计算公式为: 3、派生合并两组率的计算公式: 4、连续性校正的计算公式: 说了那么多的样本量计算公式,那么它们计算的结果之间有没有差别呢?我们一起来看一篇文献的计算结果。如下图: 上图的“% increase from small to largest”=(最大的样本量-最小的样本量)/最小的样本量*100,以上结果我们可以看出:1、不同算法所得样本量不同,样本量较小时不同算法间的差异越大;2、固定一个率时,两个率差越大,所需样本量越小;3、固定两个率的差值时,两个率越大(在小于0.5的情况下)所需样本量越多;4、尽管不同算法的样本量不同,但是所得样本量之间的绝对差值近似。 上面的结果提示我们在进行两个率比较的样本量计算时,选择不同的条件产生的计算结果是不同的。在研究计划或标书的书写时,最好是能够写明所选用的计算假设、计算参数、计算公式和采用的计算软件;在研究结果的统计分析时,也需要遵照样本量计算时假设进行分析(如是否进行精确检验或连续性校正等等)。近日国外的一项研究显示,在未发表的RCT研究方案中仅有30%(134/446)的研究提供了样本量计算的足够细节,其样本量计算过程可以重现。不知在咱们的方案中样本量计算过程是否也可以重现呢? 另外,在计算样本量时也需要谨慎选择在线的样本量计算网页或网上下载的R程序包,因为它们的后台往往是个黑箱子。 |
|
来自: 王学东的图书馆 > 《临床流行病学与循证医学》