第二十五章 meta分析

勤悦轩 2016-05-04

展开全文

一、meta分析产生的背景

1. 在医学科研中，针对同一问题常常同时或者先后有许多类似的研究。

2. 由于研究对象数量的限制、各种干扰因素的影响以及研究本身的或然性等原因，许多研究结果可能不一致，甚至相反。

3. 要获得可信的结论，有两种解决方法，一是通过严格设计的大规模随机试验进行验证；二是通过对这些研究及其结果进行综合分析和再评价，有时随机试验结果本身也需要综合。

4. 利用一定的统计方法完成很高的“效价比”，这种统计方法称为meta分析。

二、meta分析的定义

meta分析时对具有相同目的且相互独立的多个研究结果进行系统的综合评价和定量分析的一种研究方法。即meta分析不仅需要搜集目前尽可能多的研究结果，并进行全面、系统的质量评价，而且还需要对符合选择条件（如纳入标准和排除标准）的研究进行定量的合并。

三、meta分析的目的：

从统计学角度看，meta分析达到了增大样本含量，提高检验功效的目的，尤其是当多个研究结果不一致或都没有统计学意义时，采用meta分析可能得到更加接近真实情况的综合结果；从狭义的角度讲，meta分析只是一种用于定量合成的统计学处理方法；从广义的角度讲，meta分析已经不再简单地局限为一种统计学方法，而是汇总了多个同类研究结果，并对研究结果进行定量合并的研究过程，是一种定量的系统评价方法。

四、meta分析的基本思想

它是通过搜集已有的或未发表的具有某一可比特性的文献，应用一定的统计学方法综合多个目的相同而相互独立的研究结果得出一个量化的合并效应结论，或者得到同类研究为什么会有不同结果的有关原因的提示，具有较强的科学性和可重复性。meta分析最致命的缺陷在于它是观察性研究，而不是具体的临床研究。

五、meta分析的作用

1. 增大检验效能；

2. 评价结果的一致性，解决研究中的矛盾，发现同类研究中是否存在异质性；

3. 评价各种研究结果以及各亚组结果的不一致，探索异质性的来源，定量地综合估计处理效应的大小，改善效应的估计值。

第一节 meta分析的应用条件和基本步骤

meta分析是系统评价（systematic review, SR）中常用的一种统计方法，但也并不是万能的。

（1）对一些经过大样本、多中心的临床试验已得到明确结论的研究，不必做meta分析；

（2）对那些设计或执行质量很差的研究，如存在严重偏倚的资料，也不能寄希望于通过meta分析就能得到可信的结论。

一、meta分析的应用条件

1. 收集的研究资料要全面。未发表的文章一般是提供没有显示效果或提供阴性结果或无结论的文章，而发表的文章一般提供阳性结果，如果仅仅选择发表的文章做得meta分析，就有可能夸大阳性效果。

2. 确定meta分析研究资料的入选标准及排除标准。

3. 研究资料效应指标明确。

4. 各研究的同质性。meta分析的统计方法包括固定效应模型和随机效应模型。

（1）fixed effect model：假设各个研究的效应指标统计量是同质的，即都是基于来自同一总体的独立随机样本，各个研究效应指标统计量之间的差异仅仅来自于抽样误差，不同的研究之间的变异很小，各研究的效应指标统计量与总体参数θ的差异均是抽样误差所致。因此fixed effect model 给出的合并效应量（effect size， ES）是各个研究的同一总体参数θ的点估计及其95%可信区间。

（2）random effect model：假设各个研究的效应指标统计量是不同质的，即是基于来自不同总体的独立随机样本，各个研究效应指标统计量之间的差异不能用抽样误差来解释，各研究间的变异较大，每个研究的效应指标统计量对应各自的总体参数θ_i（i=1,2，...，k），但可以假定θ1，θ2，...，θk近似服从N（θ，Γ_θ²），θ便是θ1，θ2，...，θk的总体均数。因此，随机效应模型给出的合并效应量则是各个研究的总体参数θ1，θ2，...，θk的总体均数θ的点估计及其95%可信区间。

二、meta分析的基本步骤

1. 提出需要并可能解决的问题，制定研究计划。

2. 搜索相关文献；

3. 确定纳入和剔除标准，筛选meta分析文献；

（1）纳入标准：

①各研究假设和研究方法相似；

②有研究开展或发表的文献；

③各研究对样本大小有明确规定；

④各研究中患者的选择和病例的诊断及其分期有明确的标准，干预和对照措施明确；

⑤如研究报告可提供OR（RR、率差、HR）及其95%可信区间，或可以转化为OR（RR、率差、HR）及其95%可信区间；如为计量资料应可提供均数、标准差和样本量等。

（2）排除标准：

①重复报告；

②存在研究设计缺陷，质量差；

③数据不完整、结局效应不明确；

④统计方法错误且无法修正，无法提供或可供转化为OR（RR、率差、HR）及其95%可信区间，计量资料无法提供均数和标准差。

4. 评价纳入文献的质量：常用Jadad量表。

5. 提取纳入文献的数据信息。

6. 数据的统计学处理。

（1）效应指标的选择：对于计量资料常用均数之差、相关系数等；对于分类资料常用OR、RR和率差（rate difference，RD）等；

（2）异质性检验，根据异质性判断结果选择合适的统计分析模型；

（3）效应尺度的参数估计及其图示；

（4）效应尺度的假设检验。

7. 敏感性分析：为了了解meta分析结论的稳定性，需要通过几种方式来考察meta分析结论有无较大变化。主要包括：

（1）选择不同统计模型时，效应合并值点估计和区间估计的差异；

（2）剔除质量相对较差的文献后，结论的差异；

（3）对文献进行分层分析前后，结论的差异；

（4）改变纳入、剔除标准前后，结论的差异。

8. 结果的讨论与分析

（1）异质性及其效应尺度的影响；

（2）偏倚的识别和控制；

（3）各种研究类型、研究质量、发布周期等亚组分析；

（4）meta分析结果的实际意义等。

第二节计量资料的meta分析

1. 若研究间具有同质性，则采用固定效应模型；一般采用Inverse-variance法（倒方差加权法）；

2. 若研究间具有异质性，应选择随机效应模型；在Inverse-variance法的基础上，采用DerSimonian-Laird法，引入校正因子对固定效应模型中的权重进行校正后再计算合并效应量及其95%置信区间。

3. 异质性检验：

（1）若P≤α（α一般取0.10或0.05），则拒绝H₀，可认为各研究间异质性大，采用随机效应模型；

（2）若P＞α，则不拒绝H₀，可认为各研究间具有同质性，应采用固定效应模型。

4. 基于固定效应模型的合并效应量的95%置信区间

5. 基于随机效应模型的合并效应量及其95%置信区间

6. 结论

若合并效应量的95%置信区间包含0，则表明效应合并量与0的差异无统计学意义，即试验组与对照组间差异无统计学意义；否则，表明效应合并量与0的差异有统计学意义，即试验组与对照组间有统计学意义。

meta分析的统计结果简单而直观地表达形式是森林图（forestplots）

（1）它是以一条垂直的无效线（横坐标刻度为1或0）为中心，用平行于横轴的多条线段描述每个被纳入研究的效应量和可信区间，用一个菱形（或其他图形）描述合并的效应量及其可信区间，在平面直角坐标系中绘制出的一种图形。

（2）当统计指标OR、RR、RD及加权均数差和均数差的95%可信区间横线与森林图的无效线（横坐标刻度为1或0）相交时，表明试验组的效应量与对照组相等，可认为试验因素无效；

（3）当其95%可信区间横线不与森林图的无效线相交且落在无效线右侧时，表明试验组的效应量大于对照组；

（4）当其95%可信区间横线不与森林图的无效线相交且落在无效线左侧时，表明试验组的效应量小于对照组；

（5）对于临床研究而言，当试验组效应量大于对照组时，因研究事件性质不同而临床意义会截然相反；同样当试验组效应量小于对照组时其临床意义亦然。

第三节两分类数据的meta分析

OR：odds ratio优势比

RR：risk ratio风险比

RD：risk difference 风险差异

两分类数据资料进行meta分析可选择OR、RR和RD[相当于队列研究中的归因危险度（attributable risk，AR）]等作为效应指标，再根据异质性检验结果选择不同的分析模型。

（1）若各研究间具有同质性，则采用固定效应模型；

（2）若各研究间具有异质性，则采用随机效应模型；

一、固定效应模型

对两分类变量资料而言，适应于固定效应模型的meta分析方法有Mantel-Haenszel法（简称M-H法）、Peto法、Fleiss法以及Inverse-variance法。除了Peto法外，其他三种方法是RevMan、Stata等软件进行meta分析时的常用方法。

1. M-H法

M-H法是分类变量固定效应模型常用的统计方法，可用于OR、RR和RD等效应指标的合并。该方法需要每个研究有完整的四格表。

2. Peto法

也称改良的M-H法，常用于以比数比OR为效应指标进行多个研究的合作，是固定效应模型的经典方法。对于无法获得完整四格表的文献研究，Peto法则弥足了这一不足。不过，Peto法在四格表很不平衡或各个纳入研究的OR值都远离1时会产生较大的偏性，故常用于基于OR值的研究。

3. Inverse-variance法

该方法可用于计量资料的均数差等效应指标的合并，也可用于分类资料的比数比（OR）、相对危险度（RR）和危险度差（RD）等效应指标的合并。用θ估计值表示ln（OR）、ln（RR）或RD等效应指标的总体估计值。

二、随机效应模型

Meta分析时，若异质性检验拒绝零假设，则应采用随机效应模型。与计量资料一样，对于分类资料，当异质性检验统计量Q＜k-1，其与固定效应模型相似；当Q≥k-1，随机效应模型主要是对固定效应模型中的w_i加以校正，即计算所谓的校正因子Γ²值。

本节介绍的异质性检验，统计量Q易受研究文献数量的影响。若研究文献多，合并方差小，则权重大，对Q值的贡献也大，这是容易得出假阳性（即拒绝H₀，不同质）的结果；反之，如果研究文献较少，权重也较小，检验效能又往往太低，容易得出假阴性（即不拒绝H₀，同质）的结果。从而，导致效应模型上的选择错误，特别是把理应采用随机效应模型的分析错误的选择了固定效应模型，其所得的结果会相差很远，甚至结论相反。为此，可通过对统计量Q进行自由度的校正，来降低研究文献的数量对异质性检验结果的影响。这就是目前也常用的另一种基于统计量Q的异质性判断方法，即I²统计量，

I²={[Q-(k-1)]/Q}X100% 当Q＞k-1

I²=0 当Q≤k-1

其中，k表示纳入meta分析的研究个数。

一般地I²＞56%时，提示各研究间存在较大的异质性；I²＜31%时，则可认为各个研究是同质的。I²在31%-56%之间，往往无法排除其异质性的存在。

第四节诊断试验的meta分析

诊断试验的meta分析与一般的随机对照试验的meta分析不同，选择的文献要有明确的诊断金标准，并可直接或间接获得诊断试验的真阳性（TP）、假阳性数（FP）、假阴性数（FN）、真阴性数（TN）等原始数据。

一、单一评价指标的meta分析

诊断试验的meta分析常用的效应指标有灵敏度（Sen）、特异度（Spe）、阳性似然比（LR+）、阴性似然比（LR-）、诊断比数比（DOR）及ROC曲线等。传统的诊断试验meta分析时将各独立研究的单一评价指标进行综合估计，得到相应的合并效应值及其95%CI。

应用条件：不同研究的结果具有同质性是计算灵敏度、特异性、阴性似然比和阳性似然比等单一指标合并效应量的前提条件。否则，因异质性会造成评价结果的不准确性。

二、SROC曲线法

Moses等提出了一种基于ROC曲线的所谓SROC曲线法，该方法不受异质性或阈值的影响，并综合了灵敏度和特异度的信息，可综合评价诊断试验的准确度。

SROC曲线，即综合受试者工作特征曲线，它是通过对真阳性率（true positive rate, TPR）与假阳性率（false positive rate, FPR）进行logit变换，将TPR与FPR间的非线性关系转化成一种线性关系，利用最小二乘法进行参数估计，建立SROC曲线回归方程，并获得综合评价诊断试验准确度的统计量。

SROC曲线分析法的基本步骤如下：

（1）计算各研究的TPR和FPR，对其进行logit变换。

（2）估计模型参数A及B。

（3）建立SROC曲线回归方程。

对于SROC曲线分析方法，用TPR^*表示SROC曲线的诊断试验准确性，它与灵敏度和特异度有关，也可用于不同诊断试验间诊断准确性的比较。

TPR^*=（1+e^-A/2）^-1

第五节 meta分析的偏倚考察

Meta分析中可能出现的偏倚：

（1）抽样偏倚：发表偏倚、查找偏倚、索引偏倚、引文偏倚和语种偏倚；

（2）选择偏倚：纳入标准偏倚和选择者偏倚；

（3）研究内偏倚：提取者偏倚、研究质量评分偏倚和报告偏倚；

（4）发表偏倚：指具有统计学意义的研究结果较无统计学意义或无效的结果被报告和发表的可能性更大，是meta分析中最常见的偏倚。

识别和控制发表偏倚的方法有：

1. 漏斗图法

基本思想：每个纳入研究的效应值的精度随研究的样本量的增加而增加，即样本量越小的研究，其变异越大。一般以效应值为横坐标，精度为纵坐标绘制散点图，若纳入研究无发表偏倚，则图形呈现倒置的漏斗形；若漏斗图不对称或不完整，则提示可能存在发表偏倚。

优点：简单易操作，只需要利用每个纳入研究的样本量和效应值就可以了。

缺点：此法只能对结果做定性判定，比较粗糙，适合于纳入的研究个数比较多的情况。

2. 线性回归法

针对漏斗图只能进行定性判断的特点。根据漏斗图的基本原理，可以用线性回归模型来检验漏斗图的对称性，称为线性回归法。

方法：

（1）先计算纳入分析的每个研究的标准正态离差（SND）和精度（precision），以精度为自变量，标准正态离差为应变量建立回归方程，即

SND=a+b*precision。

标准正态分布亦称为μ分布，μ被称为标准正态分布或标准正态离差（standard normal deviate）

（2）精度是由样本量决定，样本量趋近0时，精度也接近0，SND也趋近0。因而小样本研究代表的散点在回归直线中接近原点。

（3）理论上，如果不是来自一个有偏倚的样本，那么散点的分布能形成一条通过原点的直线，回归直线的截距a=0，这也对应于对称的漏斗图。a的大小用以评价不对称性，a的绝对值越大，表示越可能有偏倚；斜率b表示效应值的大小。

（4）实际操作中，求出线性回归方程的截距，并对是否为0进行假设检验，进一步推断漏斗图是否对称，是否存在发表偏倚。

优点：简单易懂，容易计算；

缺点：Egger’s test 中自变量的标准误估计来自纳入研究的数据，存在抽样误差，因而回归方程的斜率和截距都为有偏估计，而且线性回归法不能解释漏斗图不对称的原因。

3. 漏斗图回归法：针对Egger的线性回归其标准差的估计存在抽样误差这一局限之处，提出了一种新方法，即漏斗图回归法。

原理：直接以效应值为应变量，样本量n为自变量直接建立回归方程。若不存在发表偏倚，那么回归直线的斜率应该为0，截距代表总体的效应值。如果得到的回归方程，经假设检验后斜率不为0，那么提示有可能存在发表偏倚。

4. 秩相关法（基于Kendall’s的秩相关检验法）

如果Z＞1.96，P＜0.05，提示可能存在发表偏倚；如果Z＜1.96，P＞0.05，提示不存在发表偏倚。

Begg的秩相关检验被认为是漏斗图的直接统计学模拟，但对该检验效能的模拟研究结果表明，检验效能的变异性大。

5. 剪补法（trim and fill method）

剪补法是一种非参数统计方法，用于估计缺失的研究个数，并对发表偏倚进行校正。

缺点：（1）剪补法是建立在漏斗图是严格对称的基础上，然而实际情况并非如此。漏斗图可能会受到各种情况的影响。

（2）用剪补法来探测发表偏倚，容易受极端值的影响。

（3）计算过程中不断进行中心化。

6. Richy法

X=∑^i=k_i=1f_ix (d_i-d^-)

MF= f_ix (d_i-d^-)

前5种方法容易受到极端值影响，Richy法利用非参数方法求出所有MF的可信区间（一般是95%CI）。如果X的值在这个区间外，就认为存在发表偏倚。

缺点：该方法存在很多的局限；

优点：但是因为这个方法的提出，跳出了漏斗图这一基础限制，从另外一个角度来看待发表偏倚。

7. 失安全数法（fail-safe number method）：也称为“抽屉文件”分析（file drawer analysis）。是一种敏感性分析方法。

基本思想：当meta分析得到有统计学意义的“阳性”结果时，为了避免该“阳性”结果是由于遗漏了一些没有统计学意义的“阴性”结果文献而产生的，可以估计这些可能被遗漏了的“阴性”结果的研究数量N_R，即最少需要再增加多少“阴性”结果的研究才能使综合分析的结论逆转，由此来评价发表偏倚的程度。

（1）N_R越大，表明存在这种因遗漏“阴性”结果而导致发表偏倚的程度越低，此时meta分析的结果也就越可靠。

（2）N_R越小，则表明存在这因遗漏“阴性”结果而导致发表偏倚的程度越高，此时meta分析的结果也就越不可靠。

（3）一般，当N_R＜10时，meta分析得到的阳性结果应慎重对待。

从严格意义上讲，该方法不是一种识别发表偏倚的方法，而是一种能否确定发表偏倚可以忽略的方法，属于敏感性分析范畴。

优点：属于敏感性分析范畴。

缺点：当本身合并效应值无统计学意义时，则不能进行。

8. 量表评价法：Jadad量表较为常用。

如果各研究间异质性较大，则可在分析异质性的来源后，根据原因作出处理，包括：

（1）亚组分析：可以将各研究按设计方案、研究质量等分为几个亚组，分别合并及评价；

（2）敏感性分析：将所有研究纳入分析，得出结果。再将被认为是有异常的研究排除后重新分析，通过比较前后两次分析结果的差异来评价被排除的研究对综合结果的影响；

（3）采用随机效应模型等。

总之，在meta分析之前，应测量发表偏倚和评估其影响程度，如果发表偏倚较大，则需进一步收集相关资料信息，如与原文作者或者研究组联系，查阅有无阴性结果的研究，如果有，则尽量从中获得相关的资料。如果不能将发表偏倚减少到一定的水平，则只能放弃meta分析。

第七节 meta分析的具体实施

Meta分析常用的软件有Stata和Review Manager，前者较好。尤其在做漏斗图方面以Stata为佳，还有敏感性分析和偏倚分析方面更佳。在Stata/SE软件中才有Meta分析（在User栏），无“/SE”的Stata软件不可。

Meta分析最重要的是文献搜索，一般要将pubmed，splinger，website，ovid，万方，NK等中外数据库均可用到，当中、英文重叠时取英文的，方式一般取[Title/Abstract]，连接词“OR”较好，半年之内完成就（四个月搜索文献阅读，1周分析，余下的时间写作）可尝试不同的检索方式，队列及病例对照研究均要，队列研究的价值高。如果队列研究多，而病例对照只有1个，则舍去；反之亦然。在meta分析的文中必须有1个检索流程。GADAD评分共5分，低于3分不纳入研究。