研究人群的代表性：理想和现实之间的取舍

yuhaizju 2019-03-18

展开全文

摘自：中华疾病控制杂志，2019，23（3）：249-252.

作者：唐金陵

单位：香港中文大学公共卫生及基层医疗学院

DOI:10.16462/j.cnki.zhjbkz.2019.03.001

【摘要】

所有的科学研究都是抽样研究，样本代表性是结果外推的前提，对总体或目标人群代表性要求的高低取决于研究问题。在关于一个地区疾病负担等有关问题的研究中，研究者关心的是该地区目前一些具体的事实，总体人群是具体的、明确的、有限的，研究样本的代表性十分重要，抽取有代表性的研究样本也是可行的。相比，在关于病因、疗效、副作用、预后、诊断等问题的研究中，研究者关心的是“放之四海而皆准”的一般规律，总体是模糊的、抽象的、无限的，无法从中抽取有代表性的样本。获得代表性的难度还与观察现象的变异（如交互作用）程度成反比。而且，对于病因和疗效研究，过于强调代表性会导致研究在方法学质量控制方面的妥协，增加偏倚，降低研究结果的内部真实性，使代表性失去意义。因此，这类研究一般不太强调代表性，而是更强调内部真实性，采取的是不断扩展研究人群以重复验证的策略，研究结果最终可代表或可推论的总体就是所有的研究抽样人群的总和所代表的人群。但是，所有研究都必须保证研究人群对于抽样人群的代表性，这是统计推论以及结果真实性和外推性的共同保障。另外，基于大数据的研究也是抽样研究，但是大数据拥有的抽样人群经常是不明确的，因此总体是不明确的、模糊的，推论也必然带着盲目性。

【正文】

1、所有科学研究都是抽样研究

所有科学研究都是通过对局部的观察来推测局部以外世界的一般规律，其进程总是从小的局部到大的局部再到更大的局部，没有哪个科学定律是在观察了所有局部的集合（即总体的全部）之后才作出推论的，既是因为实际上做不到，也因为理论上没有必要。万有引力定律是这样，吸烟可以引起肺癌是这样，抗生素可以治疗感染也是这样。认识茅台酒的味道也是这样。

在流行病学研究里，对局部的研究就是抽样研究，研究的人群就是样本。只有当样本可以代表总体的条件下，局部的研究结果才可以用来推论总体的规律。换言之，所谓样本的代表性，就是研究人群与总体人群在各种可能决定最终研究结果的因素上保持一致性或可比性的程度，二者越接近，样本对总体的代表性就越高。在宣称现实世界大数据就是总体、抽样研究不再重要的时代，重提抽样研究的必要性，厘清样本及其代表性的意义和作用，对未来流行病学研究具有重要的指导意义。潘雄飞和潘安及其同事有关流行病学研究中的样本代表性问题的文章（下称潘文）讨论的正是与此相关的问题[1-2]。

潘文正确地指出，关于疾病负担的横断面研究，研究人群的代表性十分重要。相比，对于病因的前瞻性研究和对于疗效的随机对照试验，则可以在代表性上做出适当且必要的妥协，否则提高代表性的代价可能是导致真实性降低，得不偿失。因此潘文建议，流行病学研究不应一味地强调代表性，而应该具体情况具体分析，平衡提高代表性可能造成的得与失，在理想和现实之间做出合理的取舍。这个建议具有重要的实践意义。本文则希望扩展潘文的分析和讨论，试图进一步厘清代表性的实质，为当前流行病学研究选择研究对象的一般做法提供理论依据。本文里的总体就等于潘文里的目标人群，样本等于研究人群。在目标人群和研究人群之间经常还存在抽样人群，就是潘文里的源人群。

2、研究现象的变异和样本代表性的关系

流行病学是在人群层面研究医学规律的一门学问，涉及的研究问题可终极概括为对医学现象一般性和特殊性的探究。一般性是个体间的共性，特殊性是个体间的差异。如果一个事物没有变化，每个个体百分百相同，不存在任何差异，那么，理论上讲任何一个样本人群都可以无偏地代表其总体，其结果都可以无偏地推论总体，如何抽样并不重要。例如，每个人都只有一个鼻子、一对眼睛、一颗心脏等等，都属于这类没有变异的现象。

再如，接触天花病人的易感者几乎都会得天花，牛痘疫苗几乎对所有接种者都有效，包扎可以止血，青蒿素可以治愈疟疾，吗啡可以止痛，乙醚可以麻醉，胰岛素可以降低血糖，这些属于近乎没有变异的医学规律。对于这类问题的研究，由于现象的本质极其明显，在每一个个体上几乎都可以呈现出来，因此研究的代表性不是问题，无论怎么抽取样本都可以有效地揭示总体的规律。

然而，生物医学现象多存在变异。每个人的身高、体重、血压、血糖都不同；在一个人群里有人有高血压，有人没有；有的人吸烟会得肺癌，有的不会；一个治疗在百分之三十的病人中有效；服用同一个药物，有些人会发生副作用，有些不会；同样是肺癌病人，有人活得很久，有些却死得很快。在研究这些医学现象时，研究样本的代表性十分重要，否则就会做出错误的结论。

以上三种医学现象，无论是否有变异，无论变异大小如何，都需要在不同人群中重复观察，才能确认现象的本质。例如，即使每人只有一颗心脏，在观察了很多人之前，我们还是不能确定这就是普遍规律。重要的是，所研究的现象变异越小，研究结论受样本代表性的影响就越小，同时每个研究需要的样本量也越小。相反，研究现象变异越大，需要在其中论证的人群就越多，同时每个研究需要的样本量也越大。

3、明确具体和模糊抽象的推论总体

进一步讲，由于研究问题性质的不同，总体可能是具体的、明确的、有限的，也可能是模糊的、抽象的、无限的。比如，调查一个地区某时间点成年人高血压患病率，总体就是具体的、明确的、有限的，即该地区那个时点的所有成年人。其他所有为医疗卫生规划提供证据的调查，如估计一个地区疾病的发病人数、死亡人数、医务人员数、病床数、需接种疫苗的儿童数等方面的研究，都是如此。这类研究的特点是，研究者关心的只是关于一个具体、明确、有限的人群目前的一些事实。相比，在研究吸烟是否有害时，研究者关心的是所有相关人群、无关人群和时空的抽象规律，事关世界上所有人，包括过去的、现在的和未来的，总体就是一个模糊、抽象、无限的概念。

从科学上讲，抽取代表总体的样本进行研究，永远是正确的。但是，只有当研究总体是具体的、明确的、有限的，抽取有代表性的研究样本才是可行的。相反，当研究总体是模糊的、抽象的、无限的，抽取有代表性的研究样本则是困难的，甚至是不可行的。例如，调查一个地区的高血压患病率，抽取一个有代表性的样本是必要的，也是可行的，实际上研究者也往往是这么做的。相比，研究吸烟和肺癌关系时，理论上讲抽取一个有代表性的样本是不可行的，因为来自现时人群的样本可能不代表过去和未来的人群。又如，一个新的抗癌药物究竟在哪些癌症病人里可能有效，总体根本是不明的。因此，人类对病因和疗效的探索从来都不是从总体开始的，而是采取了相反的策略：从局部开始，最初结果也只外推到类似研究样本的人群，然后进一步扩大研究人群的范围，在不同人群反复验证，逐步扩大研究结果可以外推的总体。对干预措施效果和副作用的评估也是如此。

由于病因和干预研究的总体是抽象的、不明确的、无限的，是一个无法从其中直接抽取样本的人群，因此潘文合理地建议，在这类研究里，不可过于强调研究人群的代表性，否则会给研究造成很大的困难，甚至是不良的后果。潘文还敏锐地指出，因为研究资源和可行性的限制，抽取有代表性的样本加大了调查的困难，会造成应答率和随访率的降低，也可能导致其它质量控制上的妥协，进而降低研究的内部真实性，使样本获得的代表性得不偿失。可见，对病因和干预研究而言，要求严格的样本代表性是不可行的，也是不可取的。

潘文还认为，研究样本是否需要有严格的代表性，主要取决于研究类型。本文则更赞成 Rothman的观点：研究样本是否需要代表性主要取决于研究问题[3]，尽管研究问题和研究类型经常是相关的。研究问题决定了代表性样本的必要性和可行性。总体具体、明确的、有限的与疾病负担和医疗卫生规划有关的调查，研究样本一定要代表一个地区的全部人口。但是，研究病因和评估治疗作用（即疗效的副作用）则不必过于强调样本的代表性，因为总体人群是无限的、抽象的，从中抽取有代表性的样本既不可能也不现实。

4、从抽象总体抽样的困难和策略

然而，在强调病因和干预研究代表性的困难时，并不能完全忽略代表性的重要性。恰恰相反，在总体无限、抽象、不明确的情况下，如何确定抽样人群，以及如何从抽样人群选择研究对象，对这类研究其实是更棘手的问题。既然总体不能确定，那么在病因研究里，病因的作用在不同人群中是否存在变异（即交互作用），将是决定这类研究如何抽样的关键因素。然而，在研究展开以前，变异是个未知数。因此，安全的做法是选择一个代表性相对较窄的抽样人群，在这个人群里病因很可能是有作用的，而且病因的作用不因研究人群的亚群特征而变化很大。这样做的好处是可以尽早发现病因，而且结果外推的人群是单一的、明确的。

现以研究吸烟和肺癌关系的队列研究为例说明问题。这类研究不会以代表总体作为选择研究对象的第一原则，而是常常遵循以下几个（但不是全部的）原则决定抽样人群：（1）特征可以明确划定的人群。例如，“英国医生研究”选择的是当年英国所有在册的医生，他们都是在英国生活的成年人，且绝大多数是男性。（2）方便研究的人群。“英国医生研究”中的医生，而不是其他领域的人群，方便医学研究的展开；也不是中国或美国的医生，因此不用舍近求远。（3）暴露比较稳定的人群。比如吸烟一年以上的成年人群，而不是刚刚开始吸烟未来可能戒断的青少年人群。（4）可能从中测出暴露作用的人群。比如，成人吸烟者优于儿童，因为成年人抽烟时间长且肺癌发病率本来也高于儿童，统计学效率高。（5）代表危险因素暴露的普遍人群。例如，吸烟可以是机器卷烟、手卷烟、烟斗、水烟、雪茄等等，使用机器卷烟的人群为吸烟者的主体。同理，在中国的研究会首先选择汉族吸烟者。（6）可能配合研究的人群。这样就能减少研究开始后的退出和失访。在测试药物的临床试验里，还会额外考虑其他因素。例如，对测试比较安全的人群，因此临床试验会选择简单轻型病情的病人。

这样选择抽样人群的同时就形成了一个研究的限制条件，这些限制有可能产生新的问题：一是降低了研究人群的代表性进而降低了结果的外推性，二是降低了检验交互作用的机会进而增加了外推的盲目性或不精准性。代表性的损失研究者是心里有数的，反正总体是不明确的、不可及的，这样做至少可以保证了外推人群的明确性。失去检验交互作用的机会也是无奈的，因为我们预先并不知道哪里会发生交互作用。所谓交互作用就是前面提到的病因和治疗的作用在不同特征人群里存在的差异，交互作用的性质决定了只有在亚组或不同人群重复检验才可能确定它的存在。既然如此，一个具体的研究就没有必要试图代表所有可能的有关人群，因为这是不现实的，重要的是保证研究质量和结果外推人群的明确性。

进一步讲，在病因和干预研究里，交互作用、代表性和外推性的关系是：如果人群特征和暴露之间存在交互作用，那么一般意义的代表性就意味着外推的盲目性或不精准性。病因和疗效研究几乎都是在有限制的人群里进行的，如何才能知道其结果在其他人群是一致的、不存在交互作用？最可靠的方法是在不同人群重复验证，如果结果一致就说明不存在交互作用，可以外推到这个新的人群。然后，进一步扩展研究人群，或者发现交互作用，或者提高先前研究结果进一步外推性的总体。如此看来，疾病负担研究的总体人群是预先已知的，因此通过一个研究就可以实现对总体人群的外推。相比，一个病因和干预作用的总体人群是预先未知的，一项研究结果能否能外推到其他人群，不是一项研究的首要目的，最终需要在很多不同人群的测试，才能确定可外推的总体人群特征。换言之，总体人群是随着外推的延伸而确定的，就是所有研究人群代表的所有抽样人群的总体的总合。

最后，本文还需强调一个潘文和本文都没有详细展开讨论的问题，就是研究人群和抽样人群的关系。的确，一项病因或疗效研究样本代表其可能推论的总体人群是不现实的，因此我们不会强调这类研究代表它们推论的总体。但是，这并不意味着实际纳入的研究人群也不需要代表其抽样人群。恰恰相反，任何纳入的研究对象都必须尽可能代表他们的抽样人群。只有这样做，才能有效地预防选择偏倚，并同时满足统计推论和结果外推的基本条件。如何从抽样人群抽取有代表性的样本，已有文献可以参考[4]，本文不再赘述。

5、总结：大数据与代表性

大数据时代到来，有观点认为大数据拥有总体，抽样研究不再重要。然而，对于病因、疗效、副作用、转归、诊断等问题的研究，研究者关心的是放之四海而皆准的规律，因此总体是一个不可及的抽象的人群，包括世界上过去、现在和其未来所有可能的无限人群。研究一个无限人群是不可能的，因此所有有关研究都是抽样研究。大数据也不例外，无论多大，也不能代表世界上所有可能的人群，因此依据大数据的研究也是抽样研究，而且大数据经常存在抽样框架不明继而产生抽样人群不明的问题[5]。

另外，大数据强调的大样本也不是大数据的真正优势。研究需要的样本的大小取决于暴露作用或治疗效应的大小，证明很大效应的存在不要很大的样本量。效应越小，需要的样本量就越大，但同时疾病的防治意义也越小[6]。大数据代表现实世界真实情况的说法也有误导性，因为现实世界本身就很难界定，哪里的医疗环境和服务质量反映现实世界？估计没有一致的看法，更不用说很多大数据存在抽样框架不明因而外推人群不明确的问题。大数据的根本优势在于可研究的新的变量的数目和采集的频度，不在于它的规模和现实性。

总之，病因和疗效研究完全代表总体是不可行的，效应很大时大样本也是不必要的。获得代表性的难度还与观察现象变异的大小成反比。而且，过于强调大样本和代表性，可能使研究必须做出质量控制上的让步而增加了偏倚，导致研究内部真实性的降低，进而使提高的代表性失去了意义。这三点是设计流行病学研究必须注意的问题，尤其是在大数据时代，应引起充分的重视。最后还必须强调的是，病因和疗效研究实际纳入的研究对象必须尽可能代表他们的抽样人群，因为这是任何关于抽样人群的统计推论和结果外推的基础。

【参考文献】

[1] 潘雄飞，王意，叶依，等. 流行病学研究中的样本代表性问题（一）[J]. 中华疾病控制杂志,2019,23(1):1-4.DOI:10.16462/j.cnki.zhjbkz.2019.01.001.

Pan XF, Wang Y, Ye Y, et al. Sample representation in epidemiological studies (I) [J]. Chin J Dis Control Prev, 2019,23(1):1-4. DOI:10.16462/j.cnki.zhjbkz.2019.01.001.

[2] 潘雄飞，王意，叶依，等. 流行病学研究中的样本代表性问题（二）[J]. 中华疾病控制杂志,2019,23(2):125-128. DOI:10.16462/j.cnki.zhjbkz.2019.02.001.

Pan XF, Wang Y, Ye Y, et al. Sample representation in epidemiological studies (II) [J]. Chin J Dis Control Prev, 2019,23(2):125-128. DOI:10.16462/j.cnki.zhjbkz.2019.02.

001.

[3] Rothman KJ, Gallacher JE, Hatch EE. Why representativeness should be avoided [J]. Int J Epidemiol, 2013,42(4):1012-1014.DOI:10.1093/ije/dys223.

[4] Moser CA, Kalton G. Survey Methods in Social Investigation [M]. Aldershot, Gower Publishing Company Limited, 1979.

[5] 唐金陵，李立明. 关于循证医学、精准医学和大数据研究的几点看法 [J]. 中华流行病学杂志，2018,39(1):1-7.DOI: 10.3760/cma.j.issn.0254-6450.2018.01.001.

Tang JL, Li LM. Some reflections on evidenced-based medicine, precision medicine, and big data-based research [J]. Chin J Epidemiol, 2018,39(1):1-7. DOI: 10.3760/cma.j.issn.0254-6450.2018.01.001.

[6] 唐金陵，杨祖耀，毛琛. 大型随机对照试验:精准流行病学研究的典范与陷阱 [J]. 中华流行病学杂志, 2017,38(10):1299-1304.DOI:10.3760/cma.j.issn.0254-6450.2017.10.001.

Tang JL, Yang YZ, Mao C. The use and pitfalls of large randomized controlled trials [J]. Chin J Epidemiol, 2017,38(10):1299-1304.DOI:10.3760/cma.j.issn.0254-6450.2017.10.001.