最小统计量选择

slg藏书 2022-11-13

展开全文

临床研究的基础是临床问题，临床问题的提出需遵循 PICO 原则: “P”指特定的患病人群 ( population / participants) ，也是研究的目标人群; “I”指干预或暴露 ( intervention / exposure) ; “C”指对照或另一种可用比较的干预措施 ( comparator/ control) ; “O”为结局 ( outcome) 。在临床研究中，如何选择结局指标，如何获得结果，如何评价结果，如何合理估计样本量，都十分重要。

样本量估计的重要性：

太少，可重复性差，检验效能低，难以发现统计学差异

太多，耗费人力，物力，财力，增加临床研究的难度。

组间比较时，组间样本量例数不等所需样本量大于组间样本量相等的情形。

进行样本量估算的一般步骤：

image.png

在确定样本量时，一般需要设定失访率（10%或者20%）

实验设计：

在明确实验研究设计的时候，同时明确研究的指标（连续变量、分类变量等）

横断面研究：

横断面研究(cross-sectional study)是通过对特定时间点或时间段，特定范围内人群中的疾病或健康状况和有关因素的分布状况的资料收集、描述，从而为进一步的研究提供病因线索，它客观地反映了这一时点的疾病分布以及人们的某些特征与疾病之间的关联。由于所收集的资料是调查当时所得到的现况资料，故又称现况研究或现况调查(prevalence survey)；又因横断面研究所用的指标主要是患病率，又称患病率调查。

数据类型：连续性变量或分类变量

队列研究

队列研究是在一个特定人群中选择所需的研究对象，根据目前或既往某时期内是否暴露于某项待研究的危险因素或不同暴露水平，将研究对象分组，观察随访一段时间后，检查并登记各组人群待研究的预期结局发生情况 ( 如疾病、死亡或其他健康状况) ，比较各组结局发生率，评价和检验危险因素与结局关系; 队列研究也可根据不同干预措施进行分组。由于队列研究需观察随访一段时间，因此失访不可避免，在研究开始前要考虑失访率，按照估计样本量增加 10% 作为实际样本量。

数据类型：连续性变量或分类变量

病例对照研究：

病例-对照研究的基本原理是以确诊患有某种疾病的患者作为病例，以不患有该病但具有可比性的个体作为对照，通过询问、实验室检查或复查病史，搜集既往各种可能的危险因素暴露史，测量并比较病例组和对照组中各因素的暴露比例，经统计学检验，若两组差别有意义，则可认为因素与疾病之间存在统计学关联。

数据类型：成组设计（不匹配）或匹配设计（1:1或1：m）

注意事项：

选择偏倚：常发生于研究的设计阶段，主要包括入院率偏倚、现患病例-新发病例偏倚、检出症候偏倚、时间效应偏倚。
信息偏倚：又称观察偏倚或测量偏倚，是在收集整理信息过程中产生的系统误差，主要包括回忆偏倚，调查偏倚。
混杂偏倚：是指暴露因素与疾病发生的相关（关联）程度受到其他因素的歪曲或干扰。

假设检验的选择：

单侧检验：强调某一方向的检验，如是否显著“大于”、“优于”、“至少”等。

双侧检验：只强调差异，不强调方向性，如是否有显著差异。需要注意的是，除非特殊设定，临床研究应该是双侧检验，因为效应量的改变既可能增加，也可能减小。

参考链接：https://zhuanlan.zhihu.com/p/23268612

image.png

计量（年龄）

1.非正态分布：n<30,秩和检验

2.正态分布：n>=30

A．2组选择t检验

B．多组选择方差分析

计数（性别）：卡方检验

image.png

样本量计算的要素：

image.png

效应值大小和变异性信息一般可以通过查文献找到，若该研究点比较新，文献找不到，可以通过预实验估计。（比如，正常群体的均数与离散程度、药物的影响、标准差、OR值、暴露率、危险度等）

OR值（odds ratio）又称比值比、优势比，主要指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。OR = 病例组的暴露比值/对照组的暴露比值，一般用于回顾性研究（如病例对照研究）中（根据我们评价的论文，应该都是需要找出它们的OR值来计算样本量）

相对危险度（Relative Risk, RR）前瞻性地观察“暴露组”和“非暴露组”的发病情况，RR = 暴露组发病风险/非暴露组发病风险，一般用于队列研究和随机对照研究。

当RR和OR不同时，以RR为准。

参考链接：https://zhuanlan.zhihu.com/p/23268612

样本量估算常用的方法

样本量计算软件

PASS、SPSS，MINITAB、SAS 、PS、Excel软件（其中PASS软件感觉是主流，有些高档的杂志会要求使用PASS，不过要花好几千呢！！！）SPSS等需要下载软件，我之前一直以为它只有统计分析功能：统计描述分析、T检验、方差分析、线性回归与相关、聚类分析、因子分析等。

公式

一般可查阅医学统计学的书籍及相关专业的文献获得：

北大公共卫生学院教授病例对照研究样本量计算的课程讲的很详细，具体的网址如下：

（https://www./lecture/liuxing-bing-xue/lecture-5-5-yang-ben-liang-de-ji-suan-7e4FM ）

根据最小样本量计算的公式：

1.随机对照试验公式：

随机对照试验，两组分别为A处理和B处理（公式*2是因为有两组），研究对象的平均血流增加量为主要观测的结局指标，根据既往文献报道（或预试验结果），A处理的平均血流增加量为(1.8±1.0) mL／min，B处理的平均血流增加量为(2.4±1.0)mL／min，设双侧α=0.05，把握度为90%。

σ为标准差，是数值波动性的衡量，σ越大表示数值波动越厉害。

image.png

Zα/2和Zβ分别等于1.96和1.28（一般α取0.05双侧，则Z0.05/2=1.96；当1-β为0.9时，Z0.1=1.28，当1-β为0.8时，Z0.2=0.84）

image.png

得到的结果还需要除0.9，表示考虑了访失率。

2.病例对照研究：结局指标为有效率（为计数资料），属于两样本率的比较（一般先根据文献阅读或者预实验获得）

单位研究甲、乙两药对某病的疗效，预试验的甲药有效率为60%，乙药为85%。现拟进一步作治疗试验，设a=0.05，β=0.10，问每组最少需要观察多少病例？

image.png

在线样本量计算工具

1、 PowerAndSampleSize

1、可计算单样本均数，两样本均数比较，k个样本均数比较，单个率，两个率比较，配对率比较，时间-事件数据（生存数据）比较，OR值比较，以及其它。该软件的一个重要特点是可提供样本量的计算公式和R语言代码。PowerAndSampleSize网页如下：http:///Calculators/

2、 MedSci样本量计算软件(MedSci Sample Size tools, MSST)

3、 Rstudio使用代码计算（https://zhuanlan.zhihu.com/p/97412836

4、 Epitools（{https://epitools./samplesize}）

image.png

例 1：

某平行设计的随机对照试验拟探讨试验药物是否能降低收缩压。根据文献报告（预实验）安慰剂对照组收缩压的平均值为（150±30）mmHg，干预组使用试验药物后收缩压可降低 30 mmHg。设检验水准 α 为 0.05（双侧），把握度 1-β 为 0.90，分别计算干预组和对照组在人数比例为 1:1、1:2 和 2:1 时所需的样本量。

关键信息：

结局指标为连续性变量，μ 试验药物 = 120，μ 安慰剂 = 150，σ 数据离散程度= 30（根据查看文献获得），1 类错误 α= 0.05，检验效能（1-β）= 0.90，两组人数比例为 1、1/2 或 2，设计为双侧（two-sided）。

接下来进入在线样本量计算器中的「Compare 2 Means」的「2-Sample，2-Sided Equality」模式，按要求输入上述参数即可进行计算：

例 2：

某平行对照试验中，将接受白内障超声乳化手术的患者随机分为两组——低温灌注组和对照组，结局指标为角膜水肿发生率。根据文献报告（预实验）低温灌注组发生率 10%，对照组发生率 30%，要求双侧检验，α 为 0.05，β 为 0.1，两组样本量相等，求需要多少样本量？

关键信息：

结局指标为率，P 低温灌注 = 10%，P 对照 = 30%， 1 类错误 α= 0.05，power 值（1-β）= 0.90，两组人数比例为 1，设计为双侧（two-sided）。

接下来进入在线样本量计算器中的「Compare 2 Proportions」的「2-Sample，2-Sided Equality」模式，按要求输入上述参数即可进行计算：

α 一般可取双侧 0.05、单侧 0.025；（1-β）一般可取 0.9 或 0.8；组间分配比例可在 0.25～4 的范围内选取。

由于存在失访、退出和数据缺失等情况，在计算结果上可额外补充10%～20%的样本量。

实战：

采用随机对照试验设计，比较卡维地洛和心得安对降低门脉压力减少再出血的效果。如果选择 HVPG 下降作为观察指标，治疗后两组 HVPG 值或两组下降的差值 ( 计量数据) 是计算样本量的依据。对照组 HVPG 达标 50% ，治疗组优于对照组 ( 1. 5 倍，75% ) ，成组比较 ( 1∶ 1) ，α = 0. 05，1 － β = 0. 8，估计单组样本量

总结

样本量含量的确定最关键的是要考虑采用哪种方法进行估计，这需要结合研究目的、研究类型、明确研究的指标（连续变量、分类变量等）、假设检验、确定组间人数分配比例等综合考虑。

什么情况下可以不做样本量估计？

· 对于确证性临床试验，均需要进行样本量估计。对于预试验和探索性试验( 如新药临床试验 II 期) 可以不做样本量估计，但需要说明不做样本量估计的理由。如果某种标准规定了最少试验例数，也可以不做样本量估计。

亚组分析需要进行样本量估计吗？

· 亚组分析是否需要估计样本量应根据研究目的来确定。若研究目的要确证某一亚组的研究结论，如某一新药国际多中心研究 III 期临床试验的目的之一是确证该药对于中国大陆人群的有效性，那么该研究方案除了对整体的样本量进行估计外，还需要专门针对中国大陆人群这一亚组进行样本量估计。若研究目的中并没有专门强调要对某一亚组或某几个亚组的研究结论进行确证，则无需针对亚组分析进行样本量估计。这种情况下，即使数据处理结果显示亚组分析有统计意义，也不宜看作确证性的针对亚组的结论。详见 CCTS 的相应统计学考虑。