唐金陵：病因、病因模型与因果关系推断（五）

yuhaizju 2019-08-04

展开全文

第一节病因的基本概念

第二节病因学说与病因模型

第三节充分病因－组分病因模型

第四节发现和验证病因

第五节因果关系推论

一、科学推论的一般原则

二、评价单个研究的真实性

（一）真实性和研究质量

（二）决定研究质量的因素

（三）评价研究质量的方法

三、综合所有证据的推论：希尔准则

四、综合所有证据的推论：系统综述

五、病因推论的困难

第五节因果关系推论

探索因果关系的流行病学研究是在人群中寻找因果关系三个基本条件的研究。和其他研究一样，所有流行病学研究都不可能完全排除误差存在的可能性，即使队列研究和随机对照试验也不例外。根据研究设计和研究过程的特征，对研究中误差及其大小进行评估，并利用现有知识进一步判断研究结果的合理性，最后对因果关系存在的可能性做出判断，这就是流行病研究推论因果关系的程序。

一、科学推论的一般原则

科学推论(scientific inference)是依据科学研究的结果对事物的本质或普遍规律进行的推断。科学推论需要遵循一定的原则，按照一定的程序，推论的一个重要部分是对结论正确性的评估。

推论有三个层次，一是根据某具体研究进行的推论，二是根据所有同类研究进行的推论，三是根据所有有关证据进行的推论(表5)。每一项科学研究都是对其所探索的问题进行的一次探索。在单个研究层面上，推论结果的正确性首先取决于研究的相关性和设计类型。比如，动物实验发现的病因未必能外推到人类。再如，病例系列研究可以用来探索病因，但是由于其设计框架的问题，无论研究的其他方面多么的严谨，其因果关系的推论也不可能十分可靠。如果是一项高质量的随机对照试验，其发现的因果关系应是迄今可获得的最可靠的结果。其次，推论的正确性取决于研究的方法学质量和样本量，研究质量越高，样本量越大，推论结果的正确性就越高。研究质量的重要性大于样本量，如果质量很低，无论样本量多大，结果都是不可信的。

表5 病因推论的两个层次和两个方面

A)病因推论的两个层次

·单一研究内(真实性)的推论

·基于现有所有相关证据的推论

·基于所有有关证据的推论

B)病因推论的两个方面

·对定性结论的推论

·对定量结果的推论

假如一项研究是完美的，其人群代表性是高的，设计是合理的，测量是准确的，执行是严谨的，结果没有任何误差和偏倚，样本量足够大，那么该研究本身就足以对所研究的问题做出正确的推论。然而，完美的研究是不存在的，任何研究都可能存在这样或那样的问题，或多或少存在误差和偏倚，因此可靠的推论往往不能基于单一的研究，而是建立在很多同类研究甚至相关研究的基础之上。另外，其他有关知识和研究(如动物研究)结果可用来解释因果关系的合理性，作为支持因果推论的补充证据。

下面将围绕基于单个研究及所有证据的推论，讨论因果关系推论的原则、程序和对结论正确性的判断。

二、评价单个研究的真实性

即使是依据多项研究进行推论，原始研究的真实性(validity)仍然是推论正确性的重要决定因素，因此对原始研究真实性的评估是推论的前提。同理，评估一项研究的真实性也是流行病学病因推论的基础。

（一）真实性和研究质量

这里的真实性特指一项研究的内部真实性(internal validity)，即在研究条件下观察的结果与真实的接近程度。研究的目的在于求得真实，观察与真实之间的差别叫偏倚或系统误差。一项研究的偏倚与其结果的内部真实性成反比。决定研究结果内部真实性的是研究的方法学质量，或简称研究质量(methodological quality)。研究质量是对研究偏倚控制程度的总体衡量。因此，研究质量决定研究结果的真实性，质量越高，偏倚就越小，结果的真实性就越高，结论正确的可能性就越大。

（二）决定研究质量的因素

研究的质量由研究的偏倚控制措施决定。首先，研究设计是一项研究控制偏倚最基本的方法，一项研究的质量首先取决于研究设计的种类。比如，评价疗效时，从设计上讲，随机对照试验的质量一般应高于非随机的对照试验，后者又高于病例对照研究。对于病因研究，队列研究的质量高于病例对照研究，后者又高于病例系列研究。

第二，研究的质量进一步取决于流行病学研究的一般偏倚控制措施，如收集资料的准确性、组间测量的一致性、样本的代表性、减少失访、足够的观察时间等。

第三，研究的质量还取决于一类研究设计特有的偏倚控制措施，比如临床试验可使用随机分组、分组隐匿、盲法、维持原随机分组(intention-to-treat)分析等偏倚控制措施。但一项研究不一定采取所有这些措施。使用的越多，偏倚控制就越好，质量就越高。

另外，样本量决定抽样误差的大小，决定结果估计的精确性，本质上也是研究结果与真实接近程度的决定因素之一。

（三）评价研究质量的方法

评价一项研究的质量就是对该研究设计和偏倚控制措施进行分析和评价。一个简单、快速、粗略的评价方法是根据研究设计的类型，将研究质量(或研究提供的证据质量)进行分级。图10 是对病因证据的分级，不同研究提供的证据质量自下而上逐渐递增。证据分级(hierarchy of evidence)是快速评估真实性常用的参考工具。对于疗效证据的分级，队列研究上面还有随机对照试验。

图10 研究设计与证据质量

在研究设计的基础上，更详细的评价方法允许对同一类研究，根据其偏倚控制措施的多少和严谨程度，做进一步的质量划分。比如，对于一项队列研究，可根据其收集资料的准确性、样本的代表性、失访率、观察时间的长短、混杂控制等，以及这些措施实施的适当程度，将队列研究的质量进一步分为几个等级。

将证据更加详细地分级在理论上是可行的，但详细证据分级方法的可重复性和实用价值有待研究。一般认为将研究质量分为3-5级就可以满足病因推论的需要。比如：1, 高质量：本研究的结论很可能是正确的；2, 中等质量：未来研究有可能会改变本研究的结论；3, 低质量：未来研究很有可能会改变本研究的结论；4, 很低质量：本研究的结论很可能是错误的。

三、综合所有证据的推论：希尔准则

因果关系推断就是判定两个因素之间是否存在真实的因果关系，是科学推论的一种。病因推断是因果关系推断的一种，就是判定某因素是否某疾病真正的病因。

全面的病因推断必须基于目前所有相关的研究，研究人类疾病病因，在人群中进行的流行病学研究提供了最重要最直接的证据，而其他(如离体和动物)研究的证据或可用于形成病因假设，或可用做人群研究的补充证据。

严格来讲，因果关系推断包括两个层面，一是两个事件之间是否存在因果关系，二是该因果关系的强弱，前者是对定性结论的推断，后者是对定量结论的推断，相对更难(表5)。目前常讲的因果推断主要指定性推断。希尔(Hill)的九个条件是依据多项研究进行病因推论时常用的准则。

1962年多尔(Doll)和希尔提出用流行病研究结果判断病因的5条标准，1965年又将此标准增加为9条(表6)。今天，该标准常被简称为希尔准则 (Hill's Criteria)，仍广泛地用于人群研究中判断因果关系。

表6 希尔病因推断的九条标准

1.时间顺序(temporal order)

2.关联强度(strength of association)

3.剂量反应关系(dose-response relation)

4.结果的一致性(consistency)

5.实验证据(experimental evidence)

6.合理性(plausibility)

7.生物学一致性(coherence)

8.特异性(specificity)

9.相似性(analogy)

· [预测力(predictive performance), Susser 1991]

1.时间顺序(temporal order) 时间顺序指因必须先于果发生的时间关系，是判断因果关系的必要条件。时间顺序是任何一项流行病学研究必须提供的证据，它寓于研究设计之中。例如，在队列研究伊始，可疑病因已经存在，但结果事件还没有发生。在时间顺序的可信度上，临床试验、队列研究、病例对照研究和横断面研究依次降低。

2.关联强度(strength of association) 关联强度是用来评价病因和疾病之间关联度高低的指标，一般用相对危险指标衡量，如相对危险度和比值比。两个因素间关联强度越高，该结果完全由于偏倚产生的可能性就越小，二者间存在因果关联的可能性就越大。比如，吸烟和肺癌之间的相对危险度约为13，是极少见的高关联强度，因此认为吸烟是肺癌病因的可能性很大。关联强度指标也是任何一项流行病学研究必须提供的信息。

3.剂量反应关系(dose-response relation) 指疾病的发生率随可疑病因的强度或数量的变化而变化的现象。剂量反应关系的存在进一步支持因果关系的存在。

时间顺序、关联强度和剂量反应关系指标都是一项流行病学研究内部即可提供的信息。

4.研究的一致性(consistency) 指同类研究结果的一致性，一致性越高，因果关系的可能性就越大。评估一致性需要比较不同的研究，不能在一个研究内得出一致性的结论。一致性又叫可重复性(repeatability)，是不同时间、不同地点、不同人群、不同研究者使用类似的研究方法可重复获得相同或类似结果的可能性。被重复的次数越多，一致性越高，因果关系存在的可能性就越大。

5.实验证据(experimental evidence) 实验证据指关于某关联的实验性研究证据。在人群中的病因研究都属于观察性研究，观察性研究的结论可能出错，可以用更可靠的实验性研究加以确证。例如，用随机对照试验证明在人群中减少吸烟可以降低肺癌的发病率，就是实验证据。

6.生物学合理性(plausibility) 生物学合理性指某病因假设与该疾病有关的事实、知识和理论相符合或一致的程度，或前者与后者不相悖的程度。生物学合理性越高，因果关系的可能就越大。

7.生物学一致性(coherence) 生物学一致性指某病因假设与现有更一般的生物医学事实、知识和理论相符合或一致的程度，或前者可以被后者解释的程度。生物学一致性越高，因果关系的可能就越大。有人认为，生物学合理性和生物学一致性十分近似，可以合二为一。

8.特异性(specificity) 特异性指病因和疾病之间的排他性或特异程度。如果一种病因只能引起一种疾病，或只在某特殊人群引起疾病，且该疾病只有一种病因，该病因与疾病的关系具有高度特异性。特异性越高，因果关系的可能就越大。

9.相似性(analogy) 相似性指存在已知的类似的病因和疾病的因果关系，由于可以类比的因果关系的存在，将加强新的因果关系的可能性。例如，如果已知某化学物有致癌作用，当发现另一种类似的化学物与同一种癌症也存在关联时，类似的化学物质也可致癌的可能性将加大。

10.在希尔准则的基础上，1991年美国流行病学家Marvyn Susser增加了预测力(predictive performance)一项，使该准则共有10项标准。这是一项十分重要的补充。在科学上，对一个理论检验最有力的方法就是评估它的预测能力，简单地说，就是利用该理论提出一个对未来或是过去的预测，然后再收集数据评估预测的正确性。比如，根据相对论可以预测核能的可能性，原子弹和核电站的成功反过来证明了相对论的正确性。再如，观察性研究发现高血压可能是心血管病的病因，依此可以预测降低血压可以减少心血管病的发生，这个预测的确得到了抗高血压药物随机对照试验的支持，更进一步证明了高血压是心血管病的病因的假说。

总之，以上10个标准中，存在关联(包括剂量反应关系)以及关联的时间特征是判断因果关系的必要条件和特异条件。必要的意思是它们必须存在，如果不存在，就可以否定因果关系的存在；特异的意思是这两个条件是确立因果关系特有的条件，是每一项病因研究必须提供的信息，但不是论证其他问题的必要条件，如论证诊断的准确性时则不需要。而其他7项条件是有关研究之间的信息或流行病学研究之外的知识，是非特异的条件，是科学推论中使用的一般性标准，其中结果的一致性最为重要。它们又是非必要的条件，即缺乏任何一项或所有7项，都不能足以否定因果关系的存在。另外，所有10项条件都不是充分条件，即使两个事件的关系满足了所有10项条件，也不能百分百肯定它是因果关系。

希尔准则存在几个明显的重要的缺陷：第一，没有考虑收集的原始研究是否全面和完整。第二，对原始研究证据的真实性(即原始研究的方法学质量)没有考评。如果两个因素之间符合所有10个条件，提示二者很可能存在因果关系，但是如果关于这些条件的证据是不可信的，则没有理由相信该因果关系的存在。

第三，希尔准则将一个研究内提供的信息以及可在研究间观察到的信息和流行病学研究以外的信息混为一谈，认为它们是同等重要的。显然，在判断因果关系上，存在关联(或剂量反应关系)以及关联的时间顺序是特异的和必要条件，是判断因果关系的基本条件，是特异的准则。在非特异性准则中，与生物学合理性、生物学一致性、特异性和相似性比较，研究的一致性、实验证据和预测能力则更具有因果关系的判定能力。

第四，在非特异的标准中，一致性是最关键的条件，但是希尔对什么是一致性没有量化的界定，因此很难判断。况且，缺乏一致性可能是交互作用造成的，交互作用的存在支持了病因推断的特异性的标准，因此一致性不好不一定是因果关系不存在，甚至很可能相反，不可一概而论。

四、综合所有证据的推论：系统综述

20世纪末，循证医学出现，把对医学领域因果关系的研究和推论推向了新的阶段。循证医学呼吁，临床决策必须基于现有最好的证据，这些证据主要指人群中进行的医学应用型研究。依据证据进行实践，首先必须对证据的真实性进行评估。但是，循证医学首先关注的不是病因，而是治疗的效果和副作用，治疗与其产生的效果和副作用的关系也是因果关系，因此循证医学关注的主要是随机对照临床试验，推断的是治疗与其效应之间的因果关系。其次，提出和参与循证医学的不是传统关注病因研究的公共卫生领域的流行病学家，而是关注临床医学人群研究的临床流行病学家。

由于循证医学这两个特征，在证据评估的问题上，循证医学似乎一开始就忽略了希尔的病因推论准则，而是采纳了新的系统综述(systematic review) 和meta分析(meta-analysis) 提供的思路和方法。系统综述加强了对原始研究收集的系统性以及对结果定量的推论，并在原始研究结果真实性、精确性和一致性方面，系统地提出了一套统一的定量评估方法。然而，殊途同归，原始研究和系统综述的设计和分析要素里包含了希尔的主要准则，如时间顺序、关联强度、剂量反应关系、实验证据、一致性等。时间顺序是随机对照试验的设计特征决定的，关联强度和剂量反应关系反映在随机对照试验的结果里，它们是进行因果关系推断的必要因素，因为每项随机对照试验都必须具备，因此无需进行再评估。对于实验证据，随机对照试验提供的就是人群的实验证据。对于一致性，系统综述更是采用了定量的评估方法，即异质性检验。系统综述还提出了对异质性原因的探究方法，是新的贡献。

希尔的另4个标准，即生物学合理性、生物学一致性、特异性和相似性比较，对判断因果关系不十分重要，是系统综述在结果讨论中所涵盖的内容。比如，如果流行病学研究的结论与其他各种有关的研究结论一致，而且根据现有生物医学知识判断是合理的，因果关系的可能性进一步提高。

系统综述可以說是对希尔准则的科学的、系统的、定量的应用和发展，并明确提出对原始研究质量进行严格的评估。作为一种总结和评估研究文献的方法，系统综述也可能出现偏倚，降低其结论的可靠性。如何依据系统综述进行因果关系推论，针对这个问题，近些年国际上开发了一些评估系统综述真实性的工具，如“国际医学推荐分级的研究、开发和评估(Grading of Recommendations Assessment, Development and Evaluation, GRADE)工作组”的工作，它们对真实性影响因素的讨论和分析很值得参考。

五、病因推论的困难

有关病因推论，希尔曾说，我提出的九个准则没有一项可以对因果关系的存在与否提出确定无疑的证据。因果关系最多不过是一个尝试性的主观上的推论。任何科学工作都不是完美无缺的，所有科学证据都可能被颠覆或修正，科学推论永远都带着不确定性，我们永远无法确切地知道一项研究结果的真实性，但是，证据的不确定性并不赋予我们可以无视现有证据的权利，不能作为延迟必要行动的理由和借口。

50年后，我们的确发展了一套更完善更合理的因果关系推论系统和准则，但是在方法变得更加细致和量化的同时，人们再一次认识到，科学推论的本质是主观的、模糊的，且带着不确定性，严谨的方法和量化的结果未必能相应地增加我们对决策的信心。因为在如何利用证据真实性进行决策的问题上，我们远没有找到满意的答案。比如，当证据质量达到什么水平，我们就可以肯定地说结果是真实的？证据真实性是如何影响决策的？证据真实性的差别对决策的影响是什么？在满意回答这些问题之前，追求更精确更定量的证据评估似乎有点盲目。在这些方面，系统综述也不是最后答案，也许我们永远也不会有最后的答案，因为证据只是影响决策的因素之一，其他因素包括资源的多少和人们的价值取向，而且同一证据在不同决策中的作用是变化的，不是固定不变的。

参考文献

1.Rothman J. Causes. Am J Epidemiol. 1976;104:587-92.

2.Susser M. What is a cause and how do we know one? A grammar for pragmatic epidemiology. Am J Epidemiol. 1991;133:635-48.

3. Hill AB.The environment and disease: association or causation? Proc R Soc Med. 1965;58:295-300.

4.唐金陵. 第五章: 病因、病因模型与因果关系推断. 见: 李立明. 流行病学. 第一卷. 第三版. 北京: 人民卫生出版社, 2015: 86-112.

5.唐金陵, 杨祖耀. 第十四章: 系统综述与Meta分析. 见: 李立明. 流行病学. 第一卷. 第三版. 北京: 人民卫生出版社, 2015: 261-90.

（全文完）

原文出处：唐金陵. 第八章: 病因及其发现和推断. 见: 詹思延. 流行病学. 第八版. 北京: 人民卫生出版社, 2017.

编辑：冯琦、黄蔚然、傅晓红