分享

写临床研究SCI文章,不能不了解混杂因素与混杂偏倚!

 妙趣横生统计学 2019-12-08

"如何分析真实世界研究数据"系列(13)

真实世界研究最大的挑战是研究遇到混杂偏倚的强力挑战,无论哪个项目必须直面混杂因素、控制混杂偏倚、实现真实推断因果关系。关于混杂因素与混杂偏倚的概念也是分析真实世界研究数据必须掌握的知识点。本文做详细系统地论述。

统计学为流行病学服务,包括临床流行病学、公共卫生的流行病学、甚至包括基础的动物研究,其目标是推断研究因素(暴露因素、处理因素或临床治疗因素)与结局(是否死亡、有效、发病)的真实关系,并基于理论探讨两者是否存在着因果关系。

整个统计学过程,必须接受一系列考验,去伪存真,最终得到真相。上述主要包括排除机遇关联、排除虚假关联、排除非因果关联等三个方面,除了一点(排除机遇关联)之外,其他都有流行病学的偏倚有关,而统计学在其中发挥重要作用的是混杂偏倚。

1. 什么是偏倚

医学研究是抽样研究,据样本推断总体,获得总体上研究因素与结局的关系。但是整个推断过程中会由于各种原因导致“总体上研究因素与结局的关系”的失真,这一失真现象,称之为偏倚。

诸位,特别是理科生,应该都学习过误差的概念。误差包括随机误差和系统误差。随机误差是由于个体变异、抽样或者不可知原因造成的随机性的误差,是无法杜绝的。而系统误差是人为或者测量方法引起方向性的错误,是可以控制甚至是杜绝的。

偏倚就是一类系统误差,是导致结果失真的错误,它是医学研究普遍存在,但必须想办法遏制在最低水平的一类错误。

它包括选择偏倚、信息偏倚与混杂偏倚三类

选择偏倚

由于选入的研究对象与未选入的研究对象在某些特征上存在差异而起的误差。常发生在设计阶段。

信息偏倚

又称测量偏倚、观察偏倚。是在收集信息过程中由于测量暴露与结局的方法有缺陷,使采集到的信息不准确,从而引起偏倚。错分是测量不准确导致的最直接的结果。

混杂偏倚

研究某个因素与某种疾病的关联时,由于某个既与疾病有制约关系,又与所研究的暴露因素有联系的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系特点:不易识别,不易确定,需认真细致地去解决控制方法:

无论何种研究,都可能遇到上述三种类型的偏倚,我们以RCT研究为例。我们都知道RCT研究是临床研究证据可靠性最强的一类研究。为什么?

RCT研究最大的优点,或者被认为可靠性最强,因为它是混杂偏倚最小。

但是RCT研究也会受到信息偏倚的影响,在测量指标上容易受到人为主观的影响,因此,RCT研究有一个措施来应对,盲法原则,患者、测量者者甚至统计分析人员都不能知道谁是处理组,谁是对照组。

RCT研究最大的问题是选择偏倚。现在RCT研究越来越被人质疑,是因为它在人群选择上,太挑了,总是挑一些比较单一、标准严格限定、特征差异性小的一些病人(这样容易得到阳性结果),但是这样的人群却没有代表性!因此近十年来才不断有人呼吁,用真实世界研究来代替一部分RCT研究。RCT研究结果没法真正代表广大的总体人群,所以往往很多药物在临床试验是有效的,但是真正开展使用时,效果就不突出。对于这点,RCT的相应补救措施是多中心临床研究、大样本人群研究,但还是无法完全避免选择偏倚。

2. 混杂偏倚与混杂因素

混杂偏倚是指暴露因素与疾病发生或者疾病结局的相关(关联)程度受到其他因素(混杂因素)的歪曲或干扰。

比如,观察性研究某药物(X)的治疗肿瘤的效果(Z)由于非随机,药物(X)的使用还受到患者人口学、社会、经济因素(C)的影响。

例如:由于分组不均衡,药物组多为中青年人群,对照组多为中老年人。

如果药物组效果较好,有效率较高,这个结果可否要证明X与是否有真实关系?

不能,为什么要药物组效果好?药物组比对照组效果好的可能原因包括两种可能

1)  药物效果确实好

2)  年轻人效果比老年人效果好,所以年轻人比例高的药物组,比老年人比例高的对照组生存率高。

所以,最终反应的效果指标比如RR值(本例为1.47),是药物效果和年龄效果混杂一起的值,不能完全归功于药物。年龄就是混杂因素,它造成的偏差称之为混杂偏倚。

3. 混杂偏倚一般如何会产生?

混杂偏倚在医学研究的主要产生原因是分组不均衡。分组均衡的情况的情况下,比如假如上述例子是分组均衡的,那么药物组和对照组年龄结构都是一样的,那么两组人群年龄的效果是完全一样,年龄对药物因素的干扰作用为0,这就是我们之前说的两组具有可比性。完全可比的人群没有混杂偏倚。

因此,RCT研究往往基本不存在着混杂偏倚,它采用的随机化分组,因此,各组基本特征相似,具有可比性,分组均衡。

观察性研究,分组不均衡,那么就可能其他因素的分布是不可比的,不可比的情况,就存在着混杂因素,可能会造成混杂偏倚。

新英格兰医学杂志2003年发表一篇综述,系统总结观察性研究和RCT研究在论证雌激素替代疗法(HRT)对冠心病有保护作用吗?

结果我们就会发现,在冠心病的研究分析上,观察性研究与RCT研究得到了截然不同的结果(一个是保护因素,一个是危险因素)

由于这个原因,观察性研究采用一般的统计学方法,虽然能克服随机误差,但无法克服混杂偏倚:  

  •  横截面研究的不同组别某项指标比较

  • 横截面研究的两变量相关分析

  • 病例对照研究--OR值(卡方检验):例对照分组不均衡

  • 队列研究-RR值(卡方检验):露和不暴露分组不均衡、治疗组和对照组分组不均衡

4. 什么样的因素才可以称之为混杂偏倚

实际上混杂因素不仅要分组是否均衡,它总共要满足3个条件:

1)  与研究因素存在着相关或因果关系(本条件即为分组不均衡的结果)

2)  与结局存在因果关系

3)   不在研究因素与结局因果链上的之间(如果是,那么即为我们之前提过的中介变量)

比如:研究某药物X的治疗肿瘤的效果(Z)同时发现,药物X可能通过改变体内的物质Y而影响疗效

由于非随机,药物X的使用还受到患者人口学、社会、经济因素(C)的影响。

例如:由于分组不均衡,药物组多为中青年人群,对照组多为中老年人。如果药物效果较好,生存率较高,则年龄是典型的混杂因素(C),而Y是中介变量。

5. 如何判断某个变量为混杂因素

混杂因素三个条件,其中第1)和第2)条件一般可以通过统计学方法来解决,第三个条件则主要基于专业知识判断。

1)与研究因素存在着相关或因果关系

   ☆采用t、卡方、方差、秩和

2)与结局存在因果关系

   ☆采用线性(t检验)、logistic(卡方)、COX回归

3) 不在研究因素与结局因果链上的之间

    ☆ 主要是专业判断

举例分析性别、吸烟对幽门螺杆菌(HP)的影响,判断性别是否是混杂因素。

1)判断吸烟在不同性别中分布是否不同:卡方检验:结果显示,吸烟在性别中分布不同,男性中比例更高

2)判断性别是否对Hp有影响:单因素logistic回归。结果显示,性别对HP影响有统计学意义(P<0.001)

3) 性别不在吸烟与HP因果链上的之间:专业判断成立

如果性别在他们因果关系链上,会是什么情况?吸烟会通过改变性别,而影响HP感染率(Are you kidding?)

因此,性别是混杂因素!

实际操作上,该过程过于复杂,往往针对上述三个方面的两个方面来进行论证1)+3)或者2)+3),阳性结果称之为可疑混杂因素。可疑混杂因素在后期的统计分析过程中,很多时候比混杂因素更为常见。

本讲就介绍到这里!

更多真实世界研究数据分析系列

1.【专题】如何正确开展多因素回归分析?十二篇系列文章等你来阅读

本公众号大量资源全部免费下载:

1.  医学统计学习全套视频,妙趣+高级+SPSS+测试题,让你从入门到精通!

2.  重磅资源:100本“临床试验与统计学方法”英文书籍大放送!

3.《中国统计年鉴》1978-2019,巨量呈现40年全国各行业指标(包括卫生、人口在内)!

4.  2006-2018中国卫生统计年鉴合集

5.  不做实验如何利用临床数据库发表论文?精选临床预测模型视频合集

6.  重磅推荐:全网最全的医学统计相关软件,免费下载,均已破解

7.  如何制作与分析量表?中英文权威书籍来帮忙。

8. 教你如何撰写临床研究论文:临床研究统计分析思路与统计图表绘制方法

诸位,本公众号现在已经形成包括“样本量估算方法”“ Meta", “论文的统计表达方法”“统计视频”(R、医学统计学、妙趣统计学)、“科研工具合集”、“如何分析真实世界临床研究数据”等系列,有兴趣同仁们可以关注

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多