【SCI教程】因果关系的推导及一些相关的概念

牤牛河畔生 2015-09-19

展开全文

许多临床研究的问题，尤其是病因学研究，危险因素的研究，往往涉及到因果关系的求证。例如红斑狼疮的遗传学研究中，我们需要从多个的基因位点中筛选出哪个或那些与红斑狼疮有关；临床上，髋关节损害常常加速强直性脊椎炎致残，我们可能想要了解哪些因素与强直性脊椎炎的髋关节损害有关；我们还可能需要了解哪些抗风湿药可能会导致结缔组织病的性腺功能衰竭；等等。因此，因果关系的推导是临床研究中最基本的技能。严格地说，随机对照试验也是一种特定的因果关系推导，上一讲的预后因素分析也可以说是一种因果关系的推导。这里主要是简要地讨论病因学的研究，以及因果关系推导中一些有关的概念。

1．研究策略

推导因果关系主要应用两个分析性的研究策略，队列研究和病例-对照研究。虽然描述性研究（病例组分析，横断面研究等）也可以在某些情况下提示可能存在因果关系，但主要是用于建立因果关系的假说，验证假说一般需要分析性研究，即队列研究和病例-对照研究。本刊过去一些相关的文章已讨论过队列研究和病例-对照研究的区别[1]，上一讲也介绍了队列研究的方法[2]。这里主要讨论病例-对照研究的基本方法。

病例-对照研究是一种回顾性的研究，首先需要选择一个病例组和一个对照组，回顾两组研究个体对研究因素的暴露情况。与队列研究一样，需要结合专业知识，尽量将各种可能有关的因素，均纳入研究因素。一方面不遗漏有意义的病因，另一方面可以通过多元回归等方法筛选和校正各因素之间的相互混杂。病例-对照研究特别适合于发病率较低的疾病的病因学研究。但是需注意在两个研究组的样本选择时避免偏倚，对照组往往要求与病例组是同一人群中的非患病者。作病例-对照研究时，研究者需时时警惕和采取措施防止偏倚的存在[3]。

病例-对照研究的优点在于(1)在分析性研究中，病例-对照研究是最节省时间和费用的研究策略；(2)尤其适用于发病率较低的病因学研究；(3)适合于潜伏期较长的病变的病因学研究；(4)可以对一个病进行病因学的多因素分析；(5)可以用优势比（OR值）间接反映暴露因素对疾病的危险性。然而其缺点包括(1)如果暴露是一个罕见的因素，通常难以达到满意的研究结果；(2)它通常只限一个研究结局；(3)研究资料不能直接得出发病率和危险度；(4)很难确立暴露因素与疾病之间的时间关系；(5)与其它分析性研究相比，病例-对照研究较容易出现偏倚，尤其是在病例组和对照组的选择、暴露状况的回忆、分组错误和生存状态等方面的偏倚。

2．相关强度计算

由于病例-对照研究的病例组和对照组是人为选定的，不能够直接计算暴露者和非暴露组的发病率，因此它不能象队列研究那样直接计算相关危险度（RR值），其相关强度计算是通过比较病例组和对照组的暴露优势，计算优势比（OR值）。通过图1的四格表计算，病例组暴露优势 = a/c，对照组暴露优势 = b/d，OR值=病例组暴露优势/对照组暴露优势 = ad/bc

3．多因素分析方法

因果关系的研究往往涉及到多个因素，病变的产生不是孤立的，各因素之间往往相互影响，可以相互协同或拮抗，也可以相互混杂。我们需要从许多的因素中筛选出对病变有影响的因素，还需要校正各因素之间的相互混杂，所以需要采用多因素分析的方法。不少已发表的论文，只用卡方检验进行单因素分析，虽然不能说有原则性的错误，但如果能增加多因素分析的方法进行筛选，可以校正混杂因素的影响，结果将会可靠得多。由于多因素之间的相互混杂，在单因素分析中，一些有意义的因素可能被埋没了，而另一些没有意义的因素又被夸大了[3]。

在病例-对照研究中，最常用的多因素分析方法是建立Logistic回归模型时。在建立回归模型时，要先对各个研究因素进行单因素分析。对于连续性的数值变量（如年龄）和有明确等级关系的有序分类变量（如尿蛋白半定量），可以直接进行回归分析；无序分类变量（如血型）和等级关系不太明确的有序分类变量（如狼疮性肾炎的WHO病理分型），则须采用分层回归分析的方法。

有时我们可能想要证实某两个或多个因素合在一起时，对结局的影响有无协同或拮抗作用。如某多元回归分析初步显示，高血压和顽固性蛋白尿是狼疮性肾炎预后的危险因素，如果你想了解二者有无协同作用，可以将二者相乘合并为一个变量，与原来的两个变量一起放入回归方程中去筛选，如果方程能接受这个新的变量，则提示这两个变量具有协同作用。

单因素分析一方面可初步筛选出可能与预后有关的因素；另一方面去除那些根本不可能相关的因素，以减少建立多元回归模型时的“压力”。习惯上，人们多将单因素分析中P值≤0.2的因素，以及虽然P值＞0.2，但结合专业知识可能有关的因素，均作为待选变量引入到回归方程中去筛选。在建立多元回归方程时，待选变量的标准应该放宽一些，以免遗漏那些由于混杂的影响，导致在单因素分析中被“埋没”的有意义的因素。前几个月阅读某期刊2001年初发表的一篇有关狼疮脑病发生的相关因素分析，只对单因素分析中P值＜0.05者进行多因素回归分析，结果只有血白细胞，尿红细胞和A/G比值3个因子进入Logistic回归方程，被认为是与红斑狼疮脑病发生的相关因素。从风湿病专业的角度，估计很少有风湿科医生能接受这一研究结果。分析其原因，可能是在建立多元回归方程时，待选变量的标准太严，导致真正有意义的因素被“埋没”。最近又见一篇狼疮性肾炎预后分析的文章，同样只取单因素分析有意义的变量进行多元回归分析。可见这种错误不是个别现象。

Logistic回归的运算公式不在此讨论，一方面限于篇幅，另一方面回归分析一般都用计算机统计软件进行运算，几乎没有人采用计算公式进行运算。作为临床医生，只需掌握建立数据库的方法，学会某一统计软件包的操作，看得懂计算机运算结果中有用的参数，并会将所需要的参数（如：OR值及其95%可信区间，P值等）引用到论文中，以及能解析这些结果的意义就可以了。至于运算公式的推导，那是统计学家的事情。

4．OR值与RR值的区别

OR值和RR值是两个意义相似，又有区别的统计量。如果其值＞1，提示“因”促进“果”的发生；＜1 提示“因”阻止“果”的发生；＝1 则“因”与“果”无关。病例-对照研究只能计算OR值，不能计算RR值；而队列研究既可计算RR值，又可计算OR值。Logistic回归计算OR值，COX回归计算RR值。

曾见本刊有文章以病例-对照研究的方法采集研究样本，结果错误地运算RR值，而不是OR值。这几年审稿时，遇见数篇类似的错误，建议文章修改时改算OR值及其95%可信区间，可是文章发表出来只删去了RR值，改用简单的卡方检验。为了提高本刊的质量，建议国内同行在必要时，与临床流行病学或统计学的老师沟通一下，避免出现这种一目了然的错误。也不要为了“避免错误”，而只作卡方检验，不计算OR值或RR值。中华医学会杂志社一再要求，文章“不应盲目套用卡方检验”[4]。

RR值的含义是，如果研究因素为暴露和非暴露两种情况，则暴露于某因素的人发生某病的概率为非暴露者的（RR）倍；如果研究因素为连续性数值，则研究因素每增加1个单位，发生某病的概率增加（RR-1）倍。病例-对照研究是由“果”推论到“因”的研究，即研究样本是由病例组和对照组开始，不存在暴露组与非暴露组，因此不能计算发病率，也就不可能计算RR值，只能计算OR值。即比较病例组和对照组的对研究因素的暴露优势，以此来估计相对危险度的大小。在发病率较低，样本量较大的病因学研究中，OR值与RR值的含义几乎相同。如前面的四格表中，RR= a/(a+b)÷c/(c+d)，如果样本量足够大，而发病率较小，则(a+b)中的a和(c+d)中的c可以忽略不计，这样RR=a/(a+b)÷c/(c+d)≈a/b÷c/d=ad/bc=OR。但是在阳性结局发生率较高的病因学研究和预后研究中，由于RR值公式中的a和c不能被忽略，所以OR值不能被视为RR值。

5．可信区间的重要性

在国内医学期刊中，仅少数的临床研究论文对相关强度的运算结果给出了95%可信区间，其实多数论文在其统计学方法中已阐明是调用计算机统计软件完成，而几乎所有统计软件在计算RR值或OR值时，已自动给予了它们的95%可信区间，论文作者只需“一举手之劳”，就可以使文章“提高一个档次”，可惜许多发表的论文缺少了这一重要的内容。早在80年代中期，《BritishMedical Journal》就已发表文章“Confidenceintervals rether than P values: estimation rather than hypothesis testing”，强调可信区间的重要性[5]。国际上重要医学期刊的临床研究论文中，涉及到这类统计量时，也几乎均有交代95%可信区间。

95%可信区间与P值在一定程度上有共同之处，如果RR值和OR值的95%可信区间包含了1，回归系数的95%可信区间包含了0，两个均数的95%可信区间有重叠，均表示它们假设检验的P值＞0.05。不时会见到一些已发表风湿病学的论文，RR值的95%可信区间包含了1，P值却＜0.05，提请注意。

但是，P值不能反映可信区间，假设检验不能代替范围估计。因为P值只给人们“全或无”的信息，P值＜0.05被认为有统计学意义，＞0.05则无统计学意义。这样，有实际意义的差异往往因为样本量不足被判为无统计学意义（如图2中的C）；没有实际意义的微小差异则可能因为大样本量而被显示出有统计学意义（如图2中的B）。另外，单纯提供P值，还可能培养读者的懒惰思维，盲目地听信统计学意义。可信区间给读者一个范围的估计，可让临床医生在阅读文献时，结合专业的知识进行取舍。论文作者也需要结合专业知识在讨论中对论文的结果进行讨论，以得出研究的结论，此时可信区间往往会被作为讨论的依据。

图2显示假设检验与95%可信区间的关系：纵坐标向上，表示差异增大，P值渐小；“无效假设”的横坐标实线为RR值或OR值=1，回归系数=0，或P值=0.05；横坐标虚线为实际意义。A和B表示有统计学意义，P值＜0.05，但A既有统计学意义，又有实际意义；B只有统计学意义，没有实际意义。C和D表示无统计学意义，P值＞0.05，但C还不能确定是否真的没有实际意义；D则真的是没有意义。因此，临床医生引用文献的结果来指导临床决策时，需要参考可信区间，而不能盲目追求P值。